論文の概要: Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality
- arxiv url: http://arxiv.org/abs/2506.14681v1
- Date: Tue, 17 Jun 2025 16:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.567189
- Title: Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality
- Title(参考訳): 大規模微調整実験によるLLM配向の形状, 層, 訓練要因の解明
- Authors: Yuto Harada, Yusuke Yamauchi, Yusuke Oda, Yohei Oseki, Yusuke Miyao, Yu Takagi,
- Abstract要約: Supervised Fine-tuning (SFT) は、大きな言語モデルを人間の指示や値に合わせるための重要なステップである。
コード生成、数学的推論、汎用ドメインタスクなど、さまざまなデータセットに基づいて、幅広いベースモデルをトレーニングしました。
我々は、これらの1000以上のSFTモデルとベンチマーク結果をリリースし、さらなる研究を加速する。
- 参考スコア(独自算出の注目度): 10.74213785908381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) is a critical step in aligning large language models (LLMs) with human instructions and values, yet many aspects of SFT remain poorly understood. We trained a wide range of base models on a variety of datasets including code generation, mathematical reasoning, and general-domain tasks, resulting in 1,000+ SFT models under controlled conditions. We then identified the dataset properties that matter most and examined the layer-wise modifications introduced by SFT. Our findings reveal that some training-task synergies persist across all models while others vary substantially, emphasizing the importance of model-specific strategies. Moreover, we demonstrate that perplexity consistently predicts SFT effectiveness--often surpassing superficial similarity between trained data and benchmark--and that mid-layer weight changes correlate most strongly with performance gains. We will release these 1,000+ SFT models and benchmark results to accelerate further research.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大きな言語モデル(LLM)を人間の命令や値と整合させる重要なステップである。
我々は、コード生成、数学的推論、一般ドメインタスクを含む様々なデータセットに基づいて、幅広いベースモデルを訓練し、制御条件下で1000以上のSFTモデルを実現した。
次に、最も重要となるデータセット特性を特定し、SFTが導入した階層的な修正について検討した。
以上の結果から,トレーニングタスクのシナジーが全モデルにわたって持続すること,モデル固有の戦略の重要性を強調すること,などが明らかとなった。
さらに,SFTの有効性を常に予測し,トレーニングデータとベンチマーク間の表面的類似性を上回り,中間層重み変化が性能向上と相関することを示した。
我々は、これらの1000以上のSFTモデルとベンチマーク結果をリリースし、さらなる研究を加速する。
関連論文リスト
- IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment [29.703775936837012]
大規模言語モデル(LLM)は、多様な教育データセット上でのスーパービジョンファインチューニング(SFT)を通じて、素晴らしいパフォーマンスを実現している。
複数の機能を同時にトレーニングする場合、異なるドメインからのデータ量によって管理される混合トレーニングデータセットは、最終モデルのパフォーマンスに直接影響を及ぼす重要な要素である。
混合SFTデータセット内の異なる領域からのデータのボリュームを効果的に最適化する革新的なデータ平衡フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T06:42:44Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。