論文の概要: Data Efficacy for Language Model Training
- arxiv url: http://arxiv.org/abs/2506.21545v1
- Date: Thu, 26 Jun 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.241364
- Title: Data Efficacy for Language Model Training
- Title(参考訳): 言語モデル学習におけるデータの有効性
- Authors: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li,
- Abstract要約: データは言語モデル(LM)の訓練の基礎となる。
近年の研究では、トレーニングデータの最小または最適サブセットを選択することで、パフォーマンスを最大化することを目的としている。
本研究は、LMトレーニングにおけるデータの有効性を検討するための一般的なパラダイムであるDELTを紹介する。
- 参考スコア(独自算出の注目度): 29.901090317084005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is fundamental to the training of language models (LM). Recent research has been dedicated to data efficiency, which aims to maximize performance by selecting a minimal or optimal subset of training data. Techniques such as data filtering, sampling, and selection play a crucial role in this area. To complement it, we define Data Efficacy, which focuses on maximizing performance by optimizing the organization of training data and remains relatively underexplored. This work introduces a general paradigm, DELT, for considering data efficacy in LM training, which highlights the significance of training data organization. DELT comprises three components: Data Scoring, Data Selection, and Data Ordering. Among these components, we design Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which considers both the learnability and quality of each data sample from the gradient consistency perspective. We also devise Folding Ordering (FO), as a novel instance of Data Ordering, which addresses issues such as model forgetting and data distribution bias. Comprehensive experiments validate the data efficacy in LM training, which demonstrates the following: Firstly, various instances of the proposed DELT enhance LM performance to varying degrees without increasing the data scale and model size. Secondly, among these instances, the combination of our proposed LQS for data scoring and Folding for data ordering achieves the most significant improvement. Lastly, data efficacy can be achieved together with data efficiency by applying data selection. Therefore, we believe that data efficacy is a promising foundational area in LM training.
- Abstract(参考訳): データは言語モデル(LM)の訓練に不可欠である。
近年の研究では、トレーニングデータの最小または最適サブセットを選択することで、パフォーマンスを最大化することを目的としている。
データフィルタリング、サンプリング、選択といった技術がこの領域で重要な役割を果たす。
データを補完するために、トレーニングデータの組織を最適化することでパフォーマンスを最大化することに焦点を当てたデータ効率を定義し、比較的過小評価されている。
本研究は、LMトレーニングにおけるデータの有効性を検討するための一般的なパラダイムであるDELTを導入し、トレーニングデータ組織の重要性を強調した。
DELTは、Data Scoring、Data Selection、Data Orderingの3つのコンポーネントから構成される。
これらのコンポーネントの中で、勾配整合性の観点から各データサンプルの学習可能性と品質の両方を考慮し、データスコーリングの新しい例としてLearnerability-Quality Scoring(LQS)を設計する。
また、モデル忘れやデータ分散バイアスといった問題に対処する新しいデータ順序付けの例として、Folding Ordering(FO)を考案した。
まず、提案したDELTの様々な事例は、データスケールとモデルサイズを増大させることなく、LM性能を様々な程度に向上させる。
第二に、データスコアリングのためのLQSとデータオーダリングのためのFoldingを組み合わせることで、最も重要な改善が達成される。
最後に、データ選択を適用することにより、データ効率とともにデータの有効性を達成することができる。
したがって、データの有効性は、LMトレーニングにおいて有望な基礎分野であると信じている。
関連論文リスト
- Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。
データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。
Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-18T03:10:00Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。