論文の概要: Rethinking Supervised Fine-Tuning: Emphasizing Key Answer Tokens for Improved LLM Accuracy
- arxiv url: http://arxiv.org/abs/2512.21017v1
- Date: Wed, 24 Dec 2025 07:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.715849
- Title: Rethinking Supervised Fine-Tuning: Emphasizing Key Answer Tokens for Improved LLM Accuracy
- Title(参考訳): ファインチューニングの再考:LLM精度向上のためのキーアンサートークンの強調
- Authors: Xiaofeng Shi, Qian Kou, Yuduo Li, Hua Zhou,
- Abstract要約: CoT(Chain-of-Thought)コンポーネントは複雑な推論タスクにおいて重要である。
従来のsupervised Fine-Tuning (SFT)では、このモデルは過剰な長さのCoT配列に不均等に注意を向けることができた。
第1段階では、適切な出力フォーマットを確保するために従来のSFTを適用し、第2段階では、キー部分のみを微調整して精度を向上させる。
- 参考スコア(独自算出の注目度): 3.7208575749294392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Large Language Models (LLMs), the Chain-of-Thought (CoT) component has become significant for complex reasoning tasks. However, in conventional Supervised Fine-Tuning (SFT), the model could allocate disproportionately more attention to CoT sequences with excessive length. This reduces focus on the much shorter but essential Key portion-the final answer, whose correctness directly determines task success and evaluation quality. To address this limitation, we propose SFTKey, a two-stage training scheme. In the first stage, conventional SFT is applied to ensure proper output format, while in the second stage, only the Key portion is fine-tuned to improve accuracy. Extensive experiments across multiple benchmarks and model families demonstrate that SFTKey achieves an average accuracy improvement exceeding 5\% over conventional SFT, while preserving the ability to generate correct formats. Overall, this study advances LLM fine-tuning by explicitly balancing CoT learning with additional optimization on answer-relevant tokens.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、複雑な推論タスクにおいて、Chain-of-Thought(CoT)コンポーネントが重要になっている。
しかし、従来のSupervised Fine-Tuning (SFT)では、過剰な長さのCoT配列に不均等に注意を向けることができた。
これは、タスクの成功と評価品質を直接決定する最終回答である、はるかに短いが必須のキー部分へのフォーカスを減らす。
この制限に対処するために,2段階のトレーニングスキームであるSFTKeyを提案する。
第1段階では、適切な出力フォーマットを確保するために従来のSFTを適用し、第2段階では、キー部分のみを微調整して精度を向上させる。
複数のベンチマークやモデルファミリにわたる大規模な実験により、SFTKeyは従来のSFTよりも平均精度が5倍以上向上し、正しいフォーマットを生成する能力を維持していることが示された。
本研究は,CoT学習と解答関連トークンのさらなる最適化を明示的にバランスさせることにより,LLMの微調整を推し進める。
関連論文リスト
- Enhancing Large Language Model Reasoning via Selective Critical Token Fine-Tuning [18.934789236342244]
大規模言語モデル (LLM) は主に、数学的推論のようなドメイン固有のタスクに事前訓練されたモデルを適用するために、教師付き微調整 (SFT) に依存している。
標準SFTは全てのトークンを一様に罰し、臨界トークンの小さなサブセットだけが推論の正しさを決定することを無視する。
本稿では, 機能的に欠かせないトークンのみを, 対向的摂動によって更新する, 単純かつ効果的なアプローチであるCritical Token Fine-tuning(CFT)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:25:36Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文 参考訳(メタデータ) (2025-05-12T18:04:39Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [19.986235452236272]
Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、言語モデル(LM)を事前学習後の人間の好みに合わせるための重要なプロセスである。
Intuitive Fine-Tuning (IFT)を導入し,SFTとPOをひとつのプロセスに統合する。
IFT は SFT やいくつかの典型的な PO メソッドと相容れないか、それ以上に優れている。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。