論文の概要: Rethinking Data Mixture for Large Language Models: A Comprehensive Survey and New Perspectives
- arxiv url: http://arxiv.org/abs/2505.21598v1
- Date: Tue, 27 May 2025 16:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.202096
- Title: Rethinking Data Mixture for Large Language Models: A Comprehensive Survey and New Perspectives
- Title(参考訳): 大規模言語モデルのためのデータ混合の再考: 包括的調査と新たな展望
- Authors: Yajiao Liu, Congliang Chen, Junchi Yang, Ruoyu Sun,
- Abstract要約: 一定のトレーニング予算が与えられた場合、異なるドメインのサンプリング比率がモデルの性能に大きな影響を与えます。
制約された計算リソース内で最高のパフォーマンスモデルをトレーニングするために、異なるデータドメイン間のドメイン重みをどうやって決定できるのか?
- 参考スコア(独自算出の注目度): 10.658631265553229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models with data collected from various domains can improve their performance on downstream tasks. However, given a fixed training budget, the sampling proportions of these different domains significantly impact the model's performance. How can we determine the domain weights across different data domains to train the best-performing model within constrained computational resources? In this paper, we provide a comprehensive overview of existing data mixture methods. First, we propose a fine-grained categorization of existing methods, extending beyond the previous offline and online classification. Offline methods are further grouped into heuristic-based, algorithm-based, and function fitting-based methods. For online methods, we categorize them into three groups: online min-max optimization, online mixing law, and other approaches by drawing connections with the optimization frameworks underlying offline methods. Second, we summarize the problem formulations, representative algorithms for each subtype of offline and online methods, and clarify the relationships and distinctions among them. Finally, we discuss the advantages and disadvantages of each method and highlight key challenges in the field of data mixture.
- Abstract(参考訳): さまざまなドメインから収集されたデータで大規模な言語モデルをトレーニングすることで、下流タスクのパフォーマンスを向上させることができる。
しかし、一定の訓練予算が与えられた場合、これらの異なる領域のサンプリング比率はモデルの性能に大きな影響を及ぼす。
制約された計算リソース内で最高のパフォーマンスモデルをトレーニングするために、異なるデータドメイン間のドメイン重みをどうやって決定できるのか?
本稿では,既存のデータ混合手法について概観する。
まず,従来のオフライン・オンライン分類を超越した,既存手法のきめ細かい分類法を提案する。
オフライン法はさらにヒューリスティック法、アルゴリズム法、関数フィッティング法に分類される。
オンライン手法では,オンライン min-max 最適化,オンライン混合法,オフライン手法に基づく最適化フレームワークとの接続を図示することで,これらを3つのグループに分類する。
第2に、問題の定式化、オフラインおよびオンラインメソッドの各サブタイプの代表アルゴリズムを要約し、それらの関係と区別を明らかにする。
最後に、各手法の利点と欠点について論じ、データ混合分野における重要な課題を浮き彫りにする。
関連論文リスト
- Subset Selection for Fine-Tuning: A Utility-Diversity Balanced Approach for Mathematical Domain Adaptation [0.0]
本稿では,数学的領域のような特定の領域において,LLMを効率よく微調整する手法を提案する。
このアプローチは実用性と多様性のメトリクスを組み合わせて,最も情報に富んだ,代表的なトレーニング例を選択します。
論文 参考訳(メタデータ) (2025-05-02T18:20:44Z) - R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training [11.213419356901005]
セマンティックな類似性に基づいてトレーニングデータを分割し、よりきめ細かいドメインを作成するフレームワークであるR&Bを紹介する。
従来の作業とは異なり、R&Bは損失や勾配などの評価情報を得るために追加の計算を不要にしている。
自然言語から推論,マルチモーダルタスクまで,5つの多様なデータセットに対するR&Bの有効性を示す。
論文 参考訳(メタデータ) (2025-05-01T07:08:19Z) - Probabilistic Federated Prompt-Tuning with Non-IID and Imbalanced Data [35.47385526394076]
微調整事前学習モデルは、適度なデータで複雑なタスクを解決する機械学習の一般的なアプローチである。
事前訓練されたモデル全体を微調整することは、ローカルデータ分布が多様に歪んだフェデレーションデータシナリオでは効果がない。
提案手法は,フェデレーション学習を分散集合モデリングタスクに変換し,事前学習したモデルを世界規模で微調整するための多様なプロンプトを集約する。
論文 参考訳(メタデータ) (2025-02-27T04:31:34Z) - Online Parallel Multi-Task Relationship Learning via Alternating Direction Method of Multipliers [37.859185005986056]
オンラインマルチタスク学習(OMTL)は、複数のタスク間の固有の関係を活用することで、ストリーミングデータ処理を強化する。
本研究では、分散コンピューティング環境に適した最近の最適化である交互方向乗算器法(ADMM)に基づく新しいOMTLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-09T10:20:13Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Model-Based Domain Generalization [96.84818110323518]
本稿では,モデルベースドメイン一般化問題に対する新しいアプローチを提案する。
我々のアルゴリズムは、最新のwildsベンチマークの最先端手法を最大20ポイント上回った。
論文 参考訳(メタデータ) (2021-02-23T00:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。