論文の概要: ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection
- arxiv url: http://arxiv.org/abs/2601.09195v1
- Date: Wed, 14 Jan 2026 05:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.288463
- Title: ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection
- Title(参考訳): ProFit:確率誘導トークン選択によるSFTにおける高価値信号の活用
- Authors: Tao Liu, Taiqiang Wu, Runming Yang, Shaoning Sun, Junjie Wang, Yujiu Yang,
- Abstract要約: 監督された微調整は、大規模言語モデルと人間の意図を結びつけるための戦略である。
従来のSFTは、単一の参照応答にアライメントを強制することで、言語の一対多の性質を無視することが多い。
本稿では,表面面のオーバーフィッティングを防止するために,低確率トークンを選択的にマスクするProFitを提案する。
- 参考スコア(独自算出の注目度): 47.413985185291864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) is a fundamental post-training strategy to align Large Language Models (LLMs) with human intent. However, traditional SFT often ignores the one-to-many nature of language by forcing alignment with a single reference answer, leading to the model overfitting to non-core expressions. Although our empirical analysis suggests that introducing multiple reference answers can mitigate this issue, the prohibitive data and computational costs necessitate a strategic shift: prioritizing the mitigation of single-reference overfitting over the costly pursuit of answer diversity. To achieve this, we reveal the intrinsic connection between token probability and semantic importance: high-probability tokens carry the core logical framework, while low-probability tokens are mostly replaceable expressions. Based on this insight, we propose ProFit, which selectively masks low-probability tokens to prevent surface-level overfitting. Extensive experiments confirm that ProFit consistently outperforms traditional SFT baselines on general reasoning and mathematical benchmarks.
- Abstract(参考訳): Supervised Fine-tuning (SFT)は、大規模言語モデル(LLM)を人間の意図に合わせるための基本的な訓練戦略である。
しかしながら、従来のSFTは単一の参照応答にアライメントを強制することで言語を1対多で無視することが多く、非コア表現に過度に適合するモデルに繋がる。
我々の実証分析は、複数の参照回答を導入することでこの問題を緩和できることを示しているが、禁止データと計算コストは戦略的なシフトを必要としている。
高確率トークンは中心となる論理的枠組みを持ち、低確率トークンは置換可能な表現である。
この知見に基づいて,表面面のオーバーフィッティングを防止するために,低確率トークンを選択的にマスクするProFitを提案する。
広範な実験により、ProFitは一般的な推論と数学的ベンチマークで従来のSFTベースラインを一貫して上回っていることが確認された。
関連論文リスト
- Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge [87.51901436392427]
大規模言語モデルは、しばしばChain-of-Thought (CoT)でより効果的に複雑な推論タスクを解決する。
対照的に、人間は、しばしば、もっともらしい次のステップに対して、引力のある確率分布を維持することによって、柔らかに理にかなっている。
我々は、K候補トークンをサンプリングし、それらの埋め込みを1つの連続多重化トークンに集約するソフトな推論機構である多重思考を提案する。
モデルは自信を持っていれば、多重化トークンはほぼ独立しており、標準のCoTのように振る舞う。
論文 参考訳(メタデータ) (2026-01-13T18:48:00Z) - Enhancing Large Language Model Reasoning via Selective Critical Token Fine-Tuning [18.934789236342244]
大規模言語モデル (LLM) は主に、数学的推論のようなドメイン固有のタスクに事前訓練されたモデルを適用するために、教師付き微調整 (SFT) に依存している。
標準SFTは全てのトークンを一様に罰し、臨界トークンの小さなサブセットだけが推論の正しさを決定することを無視する。
本稿では, 機能的に欠かせないトークンのみを, 対向的摂動によって更新する, 単純かつ効果的なアプローチであるCritical Token Fine-tuning(CFT)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:25:36Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack [44.205352310633174]
大規模言語モデル(LLM)は、MCQA(Multiple-choice Question answering)タスクでますます評価される。
モデル出力に先立って、構造化された自然言語の接頭辞である*prefilling attack*(例: "*The correct option is:*")を提案する。
以上の結果から,プレフィルは複数選択設定におけるFTPベースの評価の信頼性を高めるための,シンプルで堅牢で低コストな手法であることが示唆された。
論文 参考訳(メタデータ) (2025-05-21T09:58:38Z) - Language Model Uncertainty Quantification with Attention Chain [9.093726246465117]
大規模言語モデル(LLM)の予測の不確実性は、その答えの信頼性を判断するために重要である。
UQACは,推論空間をトラクタブルなサイズに縮小し,限界化を実現するための効率的な手法である。
先進的なオープンソース LLM を用いた複数の推論ベンチマークにおいて,UQAC の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-24T21:43:47Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [19.986235452236272]
Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、言語モデル(LM)を事前学習後の人間の好みに合わせるための重要なプロセスである。
Intuitive Fine-Tuning (IFT)を導入し,SFTとPOをひとつのプロセスに統合する。
IFT は SFT やいくつかの典型的な PO メソッドと相容れないか、それ以上に優れている。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。