論文の概要: Supervised Fine-Tuning Needs to Unlock the Potential of Token Priority
- arxiv url: http://arxiv.org/abs/2602.01227v1
- Date: Sun, 01 Feb 2026 13:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.669518
- Title: Supervised Fine-Tuning Needs to Unlock the Potential of Token Priority
- Title(参考訳): トークンプライオリティの可能性を解き放つためのファインチューニングの必要性
- Authors: Zhanming Shen, Zeyu Qin, Jiaqi Hu, Wentao Ye, Hao Chen, Xiaomeng Hu, Haokai Xu, Gang Chen, Yi R. Fung, Haobo Wang,
- Abstract要約: 本論文は, 監督微調整(SFT)の形式化をめざして, 踏剣優先性を必須の橋として提唱する。
我々は、この統合レンズによる最近のブレークスルーを分析し、ノイズ濾過の正の優先順位と、無学習の有毒なモードの符号付き優先順位の2つの異なる状態に分類する。
- 参考スコア(独自算出の注目度): 26.24466194354444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transition from fitting empirical data to achieving true human utility is fundamentally constrained by a granularity mismatch, where fine-grained autoregressive generation is often supervised by coarse or uniform signals. This position paper advocates Token Priority as the essential bridge, formalizing Supervised Fine-Tuning (SFT) not as simple optimization but as a precise distribution reshaping process that aligns raw data with the ideal alignment manifold. We analyze recent breakthroughs through this unified lens, categorizing them into two distinct regimes: Positive Priority for noise filtration and Signed Priority for toxic modes unlearning. We revisit existing progress and limitations, identify key challenges, and suggest directions for future research.
- Abstract(参考訳): 経験的データへの適合から真の人的効用への遷移は、粗い信号や均一な信号によって、きめ細かい自己回帰生成がしばしば監督される粒度ミスマッチによって、基本的に制限される。
このポジションペーパーは、単純な最適化ではなく、理想的なアライメント多様体と生データを整列する正確な分布再構成プロセスとして、SFT (Supervised Fine-Tuning) を定式化する、基本的なブリッジとして、トークン優先性(Token Priority)を提唱する。
我々は、この統合レンズによる最近のブレークスルーを分析し、ノイズ濾過の正の優先順位と、無学習の有毒なモードの符号付き優先順位の2つの異なる状態に分類する。
我々は、既存の進歩と限界を再考し、重要な課題を特定し、将来の研究の方向性を提案する。
関連論文リスト
- In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Understanding Optimal Feature Transfer via a Fine-Grained Bias-Variance Analysis [10.79615566320291]
転送学習パラダイムでは、データ豊富な事前学習段階で有用な表現(または特徴)を学習し、事前訓練された表現を使用して、データスカース下流タスクのモデルパフォーマンスを改善する。
そこで本研究では,下流性能の最適化を目的としたトランスファーラーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-18T19:33:55Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。