論文の概要: Data Mixing Optimization for Supervised Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2508.11953v1
- Date: Sat, 16 Aug 2025 07:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.479492
- Title: Data Mixing Optimization for Supervised Fine-Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルの教師付き微調整のためのデータ混合最適化
- Authors: Yuan Li, Zhengzhong Liu, Eric Xing,
- Abstract要約: 最適化問題としてデータミキシングを枠組み化し,検証損失を最小限に抑える新しい手法を提案する。
提案手法は, 効率的なデータ転送をモデル化し, スケール法則を微調整に活用することにより, 損失をパラメタライズする。
提案アルゴリズムは,全領域にわたる総合的,個人的パフォーマンスに優れることを示す。
- 参考スコア(独自算出の注目度): 5.626695215498112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing data mixtures for supervised fine-tuning (SFT) of large language models (LLMs) is critical for developing general-purpose models, yet this area remains underexplored. In this paper, we frame data mixing as an optimization problem and introduce a novel method designed to minimize validation loss. Our approach parametrizes the loss by modeling effective data transferred and leveraging scaling laws for fine-tuning. By experimenting with various small-scale data mixtures, we fit these parameters and derive the optimal weights. We provide both mathematical proofs and empirical results demonstrating that our algorithm achieves excellent overall and individual performance across all domains. Through controlled experiments, we show that models trained with our optimized weights perform on par with those using optimal weights determined via grid search, with per-domain loss only 0.66% higher than the best domain loss from grid search on average. Additionally, we show that reweighting popular SFT datasets using our method improves both validation loss and downstream performance. Finally, we discuss how our method can generalize to guide data selection for domain-specific models and provide insights into SFT.
- Abstract(参考訳): 大規模言語モデル(LLM)の教師付き微調整(SFT)のためのデータ混合の最適化は、汎用モデルの開発には不可欠であるが、まだ未調査である。
本稿では,データ混合を最適化問題とし,検証損失を最小限に抑える新しい手法を提案する。
提案手法は, 効率的なデータ転送をモデル化し, スケール法則を微調整に活用することにより, 損失をパラメタライズする。
様々な小さなデータ混合物を実験することにより、これらのパラメータを適合させ、最適な重みを導出する。
数学的証明と経験的結果の両方を提供し、本アルゴリズムが全領域にわたって優れた総合的および個人的性能を達成できることを実証する。
制御された実験により、最適化された重みで訓練されたモデルが、グリッドサーチによって決定された最適重みを用いたモデルと同等に動作し、ドメインごとの損失はグリッドサーチによるドメインあたりの損失が平均で最高のドメイン損失よりわずか0.66%高い。
さらに,本手法を用いたSFTデータセットの再重み付けにより,検証損失とダウンストリーム性能が向上することを示す。
最後に,ドメイン固有モデルに対するデータ選択を一般化し,SFTに対する洞察を与える方法について考察する。
関連論文リスト
- ADMIRE-BayesOpt: Accelerated Data MIxture RE-weighting for Language Models with Bayesian Optimization [11.433087692377779]
本稿では,100万から70億のパラメータを対象とするモデルを対象とした事前学習と指導の微調整について述べる。
我々は,幅広いベースラインに対して一貫して強い結果を示し,500%以上のスピードアップを実現した。
さらに、ADMIRE IFT Runsという460のフルトレーニングと評価のデータセットを13,000時間以上のGPU時間で共有することで、研究へのアクセスを拡大しています。
論文 参考訳(メタデータ) (2025-08-15T15:53:09Z) - DONOD: Efficient and Generalizable Instruction Fine-Tuning for LLMs via Model-Intrinsic Dataset Pruning [22.704995231753397]
大規模言語モデル(LLM)のアドホック命令の微調整は、ドメイン固有の適応に広く採用されている。
本研究では,軽量なモデル固有データ解析手法であるDONODを提案する。
データセット全体の70%をフィルタリングすることで、ターゲットドメインの精度を14.90%、クロスドメインの精度を5.67%向上させる。
論文 参考訳(メタデータ) (2025-04-21T02:25:03Z) - Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models [24.396525123797073]
本稿では,各候補混合物に対応するクロスエントロピー損失の効率的な近似により,データ混合の事前学習を最適化する手法を提案する。
我々はこの近似を回帰モデルにおける付加的な特徴の源として用い、少数の混合物に対するモデル損失の観測から訓練した。
論文 参考訳(メタデータ) (2025-02-21T21:27:48Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。