論文の概要: Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models
- arxiv url: http://arxiv.org/abs/2504.14194v2
- Date: Thu, 01 May 2025 02:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.681414
- Title: Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models
- Title(参考訳): Meta-rater:事前学習言語モデルのための多次元データ選択法
- Authors: Xinlin Zhuang, Jiahui Peng, Ren Ma, Yinfan Wang, Tianyi Bai, Xingjian Wei, Jiantao Qiu, Chi Zhang, Ying Qian, Conghui He,
- Abstract要約: 我々はPRRCを提案し、プロフェッショナル主義、可読性、推論、クリーンラインにまたがるデータ品質を評価する。
学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、100Bトークンでトレーニングされた3.3Bモデルにおいて、ダウンストリームタスクのパフォーマンスを3.23倍改善することを示した。
- 参考スコア(独自算出の注目度): 7.61977883644433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The composition of pre-training datasets for large language models (LLMs) remains largely undisclosed, hindering transparency and efforts to optimize data quality, a critical driver of model performance. Current data selection methods, such as natural language quality assessments, diversity-based filters, and classifier-based approaches, are limited by single-dimensional evaluation or redundancy-focused strategies. To address these gaps, we propose PRRC to evaluate data quality across Professionalism, Readability, Reasoning, and Cleanliness. We further introduce Meta-rater, a multi-dimensional data selection method that integrates these dimensions with existing quality metrics through learned optimal weightings. Meta-rater employs proxy models to train a regression model that predicts validation loss, enabling the identification of optimal combinations of quality scores. Experiments demonstrate that Meta-rater doubles convergence speed for 1.3B parameter models and improves downstream task performance by 3.23, with scalable benefits observed in 3.3B models trained on 100B tokens. Additionally, we release the annotated SlimPajama-627B dataset, labeled across 25 quality metrics (including PRRC), to advance research in data-centric LLM development. Our work establishes that holistic, multi-dimensional quality integration significantly outperforms conventional single-dimension approaches, offering a scalable paradigm for enhancing pre-training efficiency and model capability.
- Abstract(参考訳): 大規模言語モデル(LLM)のための事前トレーニングデータセットの構成は、透明性を損なうとともに、モデルパフォーマンスの重要な要因であるデータ品質を最適化する努力を妨げている。
自然言語の品質評価、多様性に基づくフィルタ、分類器に基づくアプローチといった現在のデータ選択方法は、単一次元評価や冗長性を重視した戦略によって制限されている。
これらのギャップに対処するため、PRRCを提案し、プロフェッショナル主義、可読性、推論、クリーンラインにまたがるデータ品質を評価する。
さらに,学習した最適重み付けを通じて,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
Meta-raterはプロキシモデルを使用して、バリデーション損失を予測する回帰モデルをトレーニングし、品質スコアの最適な組み合わせを識別する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、100Bトークンでトレーニングされた3.3Bモデルにおいて、ダウンストリームタスクのパフォーマンスを3.23倍改善することを示した。
さらに,25の品質指標(PRRCを含む)にラベル付けされた注釈付きSlimPajama-627Bデータセットを公開し,データ中心LLM開発の研究を進めた。
我々の研究は、総合的な多次元品質統合が従来の単一次元アプローチよりも大幅に優れており、事前学習効率とモデル能力を高めるためのスケーラブルなパラダイムを提供しています。
関連論文リスト
- PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。
Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。
ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging [35.53877806259048]
本稿では,大規模言語モデル(LLM)におけるモデルマージのための,最初の包括的なベンチマークを確立する。
分析の結果, これまで見過ごされた3H次元間のコラボレーティブ/コンフリクト関係, (ii) 整合性トレードオフのバランスをとる上でのデータ混在アプローチに対するモデルマージの一貫性上の優位性, (iii) 冗長なコンポーネントプルーニングとアウトリー緩和によるパラメータレベルのコンフリクト解決の重要な役割, の3点が明らかになった。
重み付きパラメータの重み付けと、重み付きパラメータに適応したスペーサ適応ランク選択戦略を組み込んだ、重み付け強化タスク特異ベクトルマージ手法であるR-TSVMを提案する。
論文 参考訳(メタデータ) (2025-02-08T11:56:58Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。
我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文 参考訳(メタデータ) (2024-10-04T02:07:17Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - SelectFormer: Private and Practical Data Selection for Transformers [17.828547661524688]
本稿では,MPC(Multi-Party Computation)を用いたデータ選択の実用化について述べる。
提案手法は,MPC上での目標モデルを直接評価することにより,数千時間から数十時間までの遅延を低減し,選択したデータによるトレーニングから約0.20%の精度低下をみせる。
論文 参考訳(メタデータ) (2023-10-03T18:52:57Z) - Prototypical Fine-tuning: Towards Robust Performance Under Varying Data
Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。
提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文 参考訳(メタデータ) (2022-11-24T14:38:08Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。