論文の概要: Rethinking Supervised Fine-Tuning: Emphasizing Key Answer Tokens for Improved LLM Accuracy
- arxiv url: http://arxiv.org/abs/2512.21017v1
- Date: Wed, 24 Dec 2025 07:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.715849
- Title: Rethinking Supervised Fine-Tuning: Emphasizing Key Answer Tokens for Improved LLM Accuracy
- Title(参考訳): ファインチューニングの再考:LLM精度向上のためのキーアンサートークンの強調
- Authors: Xiaofeng Shi, Qian Kou, Yuduo Li, Hua Zhou,
- Abstract要約: CoT(Chain-of-Thought)コンポーネントは複雑な推論タスクにおいて重要である。
従来のsupervised Fine-Tuning (SFT)では、このモデルは過剰な長さのCoT配列に不均等に注意を向けることができた。
第1段階では、適切な出力フォーマットを確保するために従来のSFTを適用し、第2段階では、キー部分のみを微調整して精度を向上させる。
- 参考スコア(独自算出の注目度): 3.7208575749294392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Large Language Models (LLMs), the Chain-of-Thought (CoT) component has become significant for complex reasoning tasks. However, in conventional Supervised Fine-Tuning (SFT), the model could allocate disproportionately more attention to CoT sequences with excessive length. This reduces focus on the much shorter but essential Key portion-the final answer, whose correctness directly determines task success and evaluation quality. To address this limitation, we propose SFTKey, a two-stage training scheme. In the first stage, conventional SFT is applied to ensure proper output format, while in the second stage, only the Key portion is fine-tuned to improve accuracy. Extensive experiments across multiple benchmarks and model families demonstrate that SFTKey achieves an average accuracy improvement exceeding 5\% over conventional SFT, while preserving the ability to generate correct formats. Overall, this study advances LLM fine-tuning by explicitly balancing CoT learning with additional optimization on answer-relevant tokens.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、複雑な推論タスクにおいて、Chain-of-Thought(CoT)コンポーネントが重要になっている。
しかし、従来のSupervised Fine-Tuning (SFT)では、過剰な長さのCoT配列に不均等に注意を向けることができた。
これは、タスクの成功と評価品質を直接決定する最終回答である、はるかに短いが必須のキー部分へのフォーカスを減らす。
この制限に対処するために,2段階のトレーニングスキームであるSFTKeyを提案する。
第1段階では、適切な出力フォーマットを確保するために従来のSFTを適用し、第2段階では、キー部分のみを微調整して精度を向上させる。
複数のベンチマークやモデルファミリにわたる大規模な実験により、SFTKeyは従来のSFTよりも平均精度が5倍以上向上し、正しいフォーマットを生成する能力を維持していることが示された。
本研究は,CoT学習と解答関連トークンのさらなる最適化を明示的にバランスさせることにより,LLMの微調整を推し進める。
関連論文リスト
- On-Policy Supervised Fine-Tuning for Efficient Reasoning [27.67711115864118]
大規模推論モデル(LRM)は、長い連鎖推論を探索するために強化学習(RL)を用いて訓練されることが多い。
近年の手法では, 正確さと簡潔さを両立させるため, マルチリワード目的を付加しているが, これらの複雑な拡張はトレーニングを不安定にし, 準最適トレードオフをもたらすことが多い。
従来の精度を維持しつつ,CoT長を最大80まで短縮する簡易なSFTトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-13T19:16:39Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Enhancing Large Language Model Reasoning via Selective Critical Token Fine-Tuning [18.934789236342244]
大規模言語モデル (LLM) は主に、数学的推論のようなドメイン固有のタスクに事前訓練されたモデルを適用するために、教師付き微調整 (SFT) に依存している。
標準SFTは全てのトークンを一様に罰し、臨界トークンの小さなサブセットだけが推論の正しさを決定することを無視する。
本稿では, 機能的に欠かせないトークンのみを, 対向的摂動によって更新する, 単純かつ効果的なアプローチであるCritical Token Fine-tuning(CFT)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:25:36Z) - Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm [8.405729585427226]
Chain-of-Thought(CoT)とその変種は、大規模言語モデル(LLM)の推論能力を著しく向上させた。
E2C$(Explore-Execute Chain)は、推論を2つの異なるフェーズに分離する構造化推論フレームワークである。
論文 参考訳(メタデータ) (2025-09-28T15:48:40Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文 参考訳(メタデータ) (2025-05-12T18:04:39Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs [38.33520071583312]
Calibrated Fine-Tuning (UQ4CT)は、入力を出力にマッピングする関数の空間上の不確実性をキャプチャし、校正する。
我々は,機能空間を階層的に分解するMix-of-expertsフレームワークを用いて,微調整段階のUQ4CTを実装した。
分散シフト中であっても、UQ4CTはより優れたECE性能を高い精度で維持し、一般化性の向上を示す。
論文 参考訳(メタデータ) (2024-10-09T00:09:15Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [19.986235452236272]
Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、言語モデル(LM)を事前学習後の人間の好みに合わせるための重要なプロセスである。
Intuitive Fine-Tuning (IFT)を導入し,SFTとPOをひとつのプロセスに統合する。
IFT は SFT やいくつかの典型的な PO メソッドと相容れないか、それ以上に優れている。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。