論文の概要: Enhancing Large Language Model Reasoning via Selective Critical Token Fine-Tuning
- arxiv url: http://arxiv.org/abs/2510.10974v1
- Date: Mon, 13 Oct 2025 03:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.18299
- Title: Enhancing Large Language Model Reasoning via Selective Critical Token Fine-Tuning
- Title(参考訳): 選択的臨界トークンファインチューニングによる大規模言語モデル推論の強化
- Authors: Zhiwen Ruan, Yixia Li, He Zhu, Yun Chen, Peng Li, Yang Liu, Guanhua Chen,
- Abstract要約: 大規模言語モデル (LLM) は主に、数学的推論のようなドメイン固有のタスクに事前訓練されたモデルを適用するために、教師付き微調整 (SFT) に依存している。
標準SFTは全てのトークンを一様に罰し、臨界トークンの小さなサブセットだけが推論の正しさを決定することを無視する。
本稿では, 機能的に欠かせないトークンのみを, 対向的摂動によって更新する, 単純かつ効果的なアプローチであるCritical Token Fine-tuning(CFT)を提案する。
- 参考スコア(独自算出の注目度): 18.934789236342244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) primarily rely on supervised fine-tuning (SFT) as a key method to adapt pre-trained models to domain-specific tasks such as mathematical reasoning. However, standard SFT uniformly penalizes all tokens, neglecting that only a small subset of critical tokens determines reasoning correctness. This uniform supervision often causes reduced output diversity and limited generalization. We propose Critical Token Fine-tuning (CFT), a simple yet effective approach that updates only tokens identified as functionally indispensable via counterfactual perturbations. By focusing gradient signals on these decisive reasoning steps while preserving the diversity of non-critical tokens, CFT can enhance both generation and diversity. Extensive experiments on five models across three families (Qwen, OLMo, LLaMA) and eleven mathematical reasoning benchmarks show that CFT, despite fine-tuning on less than 12% of tokens, consistently outperforms standard SFT. Moreover, CFT enables test-time scaling through improved sampling diversity and provides a stronger initialization for reinforcement learning, sustaining performance gains in later training stages while maintaining higher entropy for better exploration. These results highlight CFT as a practical and general framework for efficient and robust LLM fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、主に、数学的推論のようなドメイン固有のタスクに事前訓練されたモデルを適用するための鍵となる方法として、教師付き微調整(SFT)に依存している。
しかし、標準的なSFTは全てのトークンを一様に罰し、臨界トークンの小さな部分集合だけが推論の正しさを決定することを無視する。
この一様監視はしばしば出力の多様性を減少させ、限定的な一般化を引き起こす。
本稿では, 機能的に欠かせないトークンのみを, 対向的摂動によって更新する, 単純かつ効果的なアプローチであるCritical Token Fine-tuning(CFT)を提案する。
非臨界トークンの多様性を維持しながら、これらの決定的推論ステップに勾配シグナルを集中させることで、CFTは生成と多様性の両方を強化することができる。
3つのファミリー(Qwen, OLMo, LLaMA)および11の数学的推論ベンチマークの5つのモデルに対する大規模な実験は、CFTが12%未満のトークンを微調整しているにもかかわらず、標準のSFTよりも一貫して優れていることを示している。
さらに、CFTはサンプリングの多様性の向上によるテストタイムスケーリングを可能にし、強化学習のより強力な初期化を実現し、後続の訓練段階におけるパフォーマンス向上を維持しつつ、より良い探索のために高いエントロピーを維持する。
これらの結果から, CFTは, 効率的かつ堅牢なLCM微調整のための実用的, 汎用的なフレームワークとして注目されている。
関連論文リスト
- On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [36.69514399442043]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - SFT-GO: Supervised Fine-Tuning with Group Optimization for Large Language Models [11.866570688304153]
Supervised Fine-tuning (SFT) は、人間の期待や特定の下流タスクに合わせて大きな言語モデル(LLM)を調整するための重要なステップとなっている。
既存のSFTメソッドは、各トレーニングインスタンスを一様シーケンスとして扱い、それらの関連性に関係なく、すべてのトークンに等しく重要である。
我々は,グループ最適化によるスーパービジョンファインチューニング(SFT-GO)を導入し,その重要性に基づいてトークンのグループを別々に扱う新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-17T23:12:28Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [19.986235452236272]
Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、言語モデル(LM)を事前学習後の人間の好みに合わせるための重要なプロセスである。
Intuitive Fine-Tuning (IFT)を導入し,SFTとPOをひとつのプロセスに統合する。
IFT は SFT やいくつかの典型的な PO メソッドと相容れないか、それ以上に優れている。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。