論文の概要: Data-Efficient Pretraining with Group-Level Data Influence Modeling
- arxiv url: http://arxiv.org/abs/2502.14709v1
- Date: Thu, 20 Feb 2025 16:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 22:18:11.746142
- Title: Data-Efficient Pretraining with Group-Level Data Influence Modeling
- Title(参考訳): グループレベルデータ影響モデリングによるデータ効率の良い事前学習
- Authors: Zichun Yu, Fei Peng, Jie Lei, Arnold Overwijk, Wen-tau Yih, Chenyan Xiong,
- Abstract要約: グループレベルデータ影響モデリング(Group-MATES)は、新しいデータ効率事前学習手法である。
Group-MATESは、事前学習モデルをデータセットで局所的に探索することで、オラクルグループレベルの影響を収集する。
その後、関係データの影響モデルを微調整し、個々の影響の相関重み付けとしてオラクルを近似する。
- 参考スコア(独自算出の注目度): 49.18903821780051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-efficient pretraining has shown tremendous potential to elevate scaling laws. This paper argues that effective pretraining data should be curated at the group level, treating a set of data points as a whole rather than as independent contributors. To achieve that, we propose Group-Level Data Influence Modeling (Group-MATES), a novel data-efficient pretraining method that captures and optimizes group-level data utility. Specifically, Group-MATES collects oracle group-level influences by locally probing the pretraining model with data sets. It then fine-tunes a relational data influence model to approximate oracles as relationship-weighted aggregations of individual influences. The fine-tuned model selects the data subset by maximizing its group-level influence prediction, with influence-aware clustering to enable efficient inference. Experiments on the DCLM benchmark demonstrate that Group-MATES achieves a 10% relative core score improvement on 22 downstream tasks over DCLM-Baseline and 5% over individual-influence-based methods, establishing a new state-of-the-art. Further analyses highlight the effectiveness of relational data influence models in capturing intricate interactions between data points.
- Abstract(参考訳): データ効率のよい事前トレーニングは、スケーリング法則を高くする大きな可能性を示している。
本稿は,データ集合を独立したコントリビュータとしてではなく,全体として扱うことにより,効果的な事前学習データをグループレベルでキュレートすべきである,と論じる。
そこで本研究では,グループレベルのデータユーティリティをキャプチャし,最適化する,新しいデータ効率事前学習手法であるGroup-Level Data Influence Modeling (Group-MATES)を提案する。
特に、Group-MATESは、事前学習モデルをデータセットで局所的に探索することで、オラクルグループレベルの影響を収集する。
その後、関係データの影響モデルを微調整し、個々の影響の相関重み付けとしてオラクルを近似する。
微調整モデルでは、グループレベルの影響予測を最大化してデータサブセットを選択する。
DCLMベンチマークの実験によると、Group-MATESはDCLM-Baselineよりも22のダウンストリームタスクで10%、個々のインフルエンスベースのメソッドで5%のスコア改善を実現し、新しい最先端技術を確立している。
さらに、データポイント間の複雑な相互作用を捉える上で、関係データの影響モデルの有効性を強調した。
関連論文リスト
- Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。
対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。
実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-25T09:08:00Z) - MASS: Mathematical Data Selection via Skill Graphs for Pretraining Large Language Models [44.458342094004024]
大規模言語モデル(LLM)の事前学習と微調整において高品質なデータが重要な役割を果たす
我々は,textbfSkill グラフを用いて LLM の事前学習を行う textbfMAthematical data textbfSelection フレームワークである MASS を紹介する。
実験により, 異なるモデルサイズにおけるMASSの有効性と有効性を示した。
論文 参考訳(メタデータ) (2025-03-19T05:50:21Z) - Optimize Cardinality Estimation Model Pretraining by Simplifying the Training Datasets [0.0]
既存の事前学習データセットのごく一部に縮小された簡易なトレーニングデータセットを導入する。
この単純化されたデータセットに基づく事前訓練された濃度推定器は、ゼロショット設定で既存のモデルに匹敵する性能を達成できることを示す十分な実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-20T08:06:16Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Harnessing Diversity for Important Data Selection in Pretraining Large Language Models [39.89232835928945]
textttQuadは、データの影響を利用して、最先端の事前トレーニング結果を達成することによって、品質と多様性の両方を考慮する。
多様性のために、textttQuadはデータセットを、各クラスタ内の同様のデータインスタンスと、異なるクラスタにわたる多様なインスタンスにクラスタする。
論文 参考訳(メタデータ) (2024-09-25T14:49:29Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Data Debiasing with Datamodels (D3M): Improving Subgroup Robustness via Data Selection [80.85902083005237]
データモデルによるデータデバイアス(Data Debiasing with Datamodels, D3M)は、マイノリティグループにおけるモデルの障害を駆動する特定のトレーニング例を分離し、削除するデバイアス(debiasing)アプローチである。
論文 参考訳(メタデータ) (2024-06-24T17:51:01Z) - MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models [16.654859430784825]
手作りのルールやより大きな参照モデルに依存する現在のデータ選択方法は、静的に行われ、事前訓練中に進化するデータ優先をキャプチャしない。
データ影響モデル(MATES)を用いたモデル認識データ選択を導入し、データ影響モデルが事前学習モデルの進化するデータ嗜好に継続的に適応し、現在の事前学習の進行に最も有効なデータを選択する。
C4データセット上で410Mと1Bモデルを事前訓練した実験により、MATESは広範囲な下流タスクにおいてランダムなデータ選択を著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-06-10T06:27:42Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。