論文の概要: Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality
- arxiv url: http://arxiv.org/abs/2506.14681v1
- Date: Tue, 17 Jun 2025 16:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.567189
- Title: Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality
- Title(参考訳): 大規模微調整実験によるLLM配向の形状, 層, 訓練要因の解明
- Authors: Yuto Harada, Yusuke Yamauchi, Yusuke Oda, Yohei Oseki, Yusuke Miyao, Yu Takagi,
- Abstract要約: Supervised Fine-tuning (SFT) は、大きな言語モデルを人間の指示や値に合わせるための重要なステップである。
コード生成、数学的推論、汎用ドメインタスクなど、さまざまなデータセットに基づいて、幅広いベースモデルをトレーニングしました。
我々は、これらの1000以上のSFTモデルとベンチマーク結果をリリースし、さらなる研究を加速する。
- 参考スコア(独自算出の注目度): 10.74213785908381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) is a critical step in aligning large language models (LLMs) with human instructions and values, yet many aspects of SFT remain poorly understood. We trained a wide range of base models on a variety of datasets including code generation, mathematical reasoning, and general-domain tasks, resulting in 1,000+ SFT models under controlled conditions. We then identified the dataset properties that matter most and examined the layer-wise modifications introduced by SFT. Our findings reveal that some training-task synergies persist across all models while others vary substantially, emphasizing the importance of model-specific strategies. Moreover, we demonstrate that perplexity consistently predicts SFT effectiveness--often surpassing superficial similarity between trained data and benchmark--and that mid-layer weight changes correlate most strongly with performance gains. We will release these 1,000+ SFT models and benchmark results to accelerate further research.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大きな言語モデル(LLM)を人間の命令や値と整合させる重要なステップである。
我々は、コード生成、数学的推論、一般ドメインタスクを含む様々なデータセットに基づいて、幅広いベースモデルを訓練し、制御条件下で1000以上のSFTモデルを実現した。
次に、最も重要となるデータセット特性を特定し、SFTが導入した階層的な修正について検討した。
以上の結果から,トレーニングタスクのシナジーが全モデルにわたって持続すること,モデル固有の戦略の重要性を強調すること,などが明らかとなった。
さらに,SFTの有効性を常に予測し,トレーニングデータとベンチマーク間の表面的類似性を上回り,中間層重み変化が性能向上と相関することを示した。
我々は、これらの1000以上のSFTモデルとベンチマーク結果をリリースし、さらなる研究を加速する。
関連論文リスト
- SFT-GO: Supervised Fine-Tuning with Group Optimization for Large Language Models [11.866570688304153]
Supervised Fine-tuning (SFT) は、人間の期待や特定の下流タスクに合わせて大きな言語モデル(LLM)を調整するための重要なステップとなっている。
既存のSFTメソッドは、各トレーニングインスタンスを一様シーケンスとして扱い、それらの関連性に関係なく、すべてのトークンに等しく重要である。
我々は,グループ最適化によるスーパービジョンファインチューニング(SFT-GO)を導入し,その重要性に基づいてトークンのグループを別々に扱う新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-17T23:12:28Z) - IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment [29.703775936837012]
大規模言語モデル(LLM)は、多様な教育データセット上でのスーパービジョンファインチューニング(SFT)を通じて、素晴らしいパフォーマンスを実現している。
複数の機能を同時にトレーニングする場合、異なるドメインからのデータ量によって管理される混合トレーニングデータセットは、最終モデルのパフォーマンスに直接影響を及ぼす重要な要素である。
混合SFTデータセット内の異なる領域からのデータのボリュームを効果的に最適化する革新的なデータ平衡フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T06:42:44Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - Sampling Foundational Transformer: A Theoretical Perspective [12.7600763629179]
本稿では,複数のデータモダリティを扱える基本サンプリング変換器(SFT)を提案する。
SFTは多くのベンチマークで競合する結果を得たが、他の非常に特殊なモデルに比べて推論が速い。
論文 参考訳(メタデータ) (2024-08-11T16:53:09Z) - LTSM-Bundle: A Toolbox and Benchmark on Large Language Models for Time Series Forecasting [69.33802286580786]
LTSM-Bundleは総合的なツールボックスであり、LTSMをトレーニングするためのベンチマークである。
複数の次元からLTSMをモジュール化し、ベンチマークし、プロンプト戦略、トークン化アプローチ、ベースモデルの選択、データ量、データセットの多様性を含む。
実験により、この組み合わせは最先端のLTSMや従来のTSF法と比較して、ゼロショットと少数ショットのパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2024-06-20T07:09:19Z) - How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。