論文の概要: The Chicken and Egg Dilemma: Co-optimizing Data and Model Configurations for LLMs
- arxiv url: http://arxiv.org/abs/2602.08351v1
- Date: Mon, 09 Feb 2026 07:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.111405
- Title: The Chicken and Egg Dilemma: Co-optimizing Data and Model Configurations for LLMs
- Title(参考訳): ニワトリと卵ジレンマ:LLMのデータとモデル構成の最適化
- Authors: Zhiliang Chen, Alfred Wei Lun Leong, Shao Yong Ong, Apivich Hemachandram, Gregory Kang Ruey Lau, Chuan-Sheng Foo, Zhengyuan Liu, Nancy F. Chen, Bryan Kian Hsiang Low,
- Abstract要約: JoBSは、ベイジアン最適化を支援するために、スケーリング法則にインスパイアされたパフォーマンス予測器を使用するアプローチである。
JoBSの平均的後悔を調査し、後悔を最小限に抑えるために最適な予算配分を考案する。
- 参考スコア(独自算出の注目度): 86.27977008139435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-optimizing data and model configurations for training LLMs presents a classic chicken-and-egg dilemma: The best training data configuration (e.g., data mixture) for a downstream task depends on the chosen model configuration (e.g., model architecture), and vice versa. However, jointly optimizing both data and model configurations is often deemed intractable, and existing methods focus on either data or model optimization without considering their interaction. We introduce JoBS, an approach that uses a scaling-law-inspired performance predictor to aid Bayesian optimization (BO) in jointly optimizing LLM training data and model configurations efficiently. JoBS allocates a portion of the optimization budget to learn an LLM performance predictor that predicts how promising a training configuration is from a small number of training steps. The remaining budget is used to perform BO entirely with the predictor, effectively amortizing the cost of running full-training runs. We study JoBS's average regret and devise the optimal budget allocation to minimize regret. JoBS outperforms existing multi-fidelity BO baselines, as well as data and model optimization approaches across diverse LLM tasks under the same optimization budget.
- Abstract(参考訳): ダウンストリームタスクのための最高のトレーニングデータ構成(例:データミキシング)は、選択したモデル構成(例:モデルアーキテクチャ)に依存します。
しかし、データ構成とモデル構成の両方を共同で最適化することは難解であると考えられ、既存の手法は相互作用を考慮せずにデータまたはモデル最適化にフォーカスする。
本稿では,拡張法にインスパイアされた性能予測器を用いて,LLMトレーニングデータとモデル構成を効率的に最適化するためのベイズ最適化(BO)を支援するアプローチであるJoBSを紹介する。
JoBSは最適化予算の一部を割り当てて、少数のトレーニングステップからトレーニング構成がどの程度有望であるかを予測するLCMパフォーマンス予測器を学習する。
残りの予算はBOを完全に予測器で実行するために使用され、フルトレーニング走行のコストを効果的に減らしている。
JoBSの平均的後悔を調査し、後悔を最小限に抑えるために最適な予算配分を考案する。
JoBSは既存のマルチ忠実BOベースラインを上回り、同じ最適化予算の下で様々なLCMタスクにまたがるデータとモデル最適化アプローチを上回ります。
関連論文リスト
- BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining [28.32850393150554]
BLISSは、外部の事前訓練されたオラクルモデルに頼ることなく、スクラッチから完全に高速に動作する軽量なデータ選択方法である。
C4データセットの選択したサブセット上で、410M/1B/2.8B PythiaとLLaMA-0.5Bモデルを事前学習することでBLISSを検証する。
BLISSは最先端の手法と同じ性能に達すると1.7倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-10-07T15:42:33Z) - Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization [37.54165341391688]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。
トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
この研究は、バッチワイドサンプル選択によるLCMアライメントを改善するための、有望な新しい方向性を示している。
論文 参考訳(メタデータ) (2025-06-08T10:26:09Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Understanding the Performance and Estimating the Cost of LLM Fine-Tuning [9.751868268608675]
コスト効率の良い特定のタスクのための微調整大型言語モデル(LLM)。
本稿では,Sparse Mixture of Experts (MoE)をベースとしたLLMファインチューニングを特徴付ける。
また,クラウド上でのLCM微調整のコストを推定するための解析モデルを開発し,検証する。
論文 参考訳(メタデータ) (2024-08-08T16:26:07Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [59.12061830645018]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Conservative Objective Models for Effective Offline Model-Based
Optimization [78.19085445065845]
計算設計の問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生している。
本研究では,分布外入力に対する接地的目標の実際の値を低くする目的関数のモデルを学習する手法を提案する。
COMは、様々なMBO問題に対して、既存のメソッドの実装と性能の面では単純である。
論文 参考訳(メタデータ) (2021-07-14T17:55:28Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。