論文の概要: AlphaToken: Decoupling Adaptation and Stability for Path-Aware Response Token Valuation in LLM Post-Training
- arxiv url: http://arxiv.org/abs/2606.01635v1
- Date: Mon, 01 Jun 2026 03:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.90282
- Title: AlphaToken: Decoupling Adaptation and Stability for Path-Aware Response Token Valuation in LLM Post-Training
- Title(参考訳): AlphaToken:LSM後トレーニングにおけるパス認識応答トークン評価の適応と安定性の分離
- Authors: Liu Qing, Ou Wu, Yi Du,
- Abstract要約: これは、評価を$textbfadaptation$と$textbfstability$に分離するレスポンストークン評価フレームワークです。
実験により、AlphaTokenはトレーニング後のパフォーマンスを改善し、破滅的な忘れを緩和することが示された。
- 参考スコア(独自算出の注目度): 9.66815639679171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token selection is pivotal for effective LLM post-training. However, existing methods mostly rely on local heuristics and rarely formulate token selection as a principled valuation of individual response tokens. We introduce $\textbf{AlphaToken}$, a response token valuation framework that decouples valuation into $\textbf{adaptation}$ (promoting target-task learning) and $\textbf{stability}$ (preserving pre-trained capabilities), and makes each objective $\textbf{path-aware}$ by combining the direct-path signal from local token gradients with the downstream causal-path signal in autoregressive generation. Since retention data are typically unavailable, AlphaToken approximates stability via a $\textbf{Fisher-drift proxy}$ anchored at the pre-trained reference model. For efficient computation, we extend Ghost Dot-Product to token-level valuation. AlphaToken masks low-value response tokens during fine-tuning and preference optimization, concentrating training signals on more valuable positions. Experiments show that AlphaToken improves post-training performance and mitigates catastrophic forgetting.
- Abstract(参考訳): 効果的なLLMポストトレーニングには、トークン選択が重要である。
しかし、既存の手法は主に局所的ヒューリスティックスに依存しており、個々の応答トークンの原則的評価としてトークンの選択を定式化することは滅多にない。
評価を$\textbf{AlphaToken}$と$\textbf{adaptation}$(ターゲットタスク学習の促進)と$\textbf{stability}$(事前訓練された機能を保存する)に分離するレスポンストークン評価フレームワークである$\textbf{AlphaToken}$を導入し、各目的を、ローカルトークン勾配からの直接パス信号と、自動回帰生成時の下流因果パス信号とを組み合わせることで、それぞれに$\textbf{path-aware}$を導入します。
保持データは一般に利用できないため、AlphaTokenは事前訓練された参照モデルに固定された$\textbf{Fisher-drift proxy}$を通じて安定性を近似する。
効率的な計算のために、Ghost Dot-Productをトークンレベルの評価に拡張する。
AlphaTokenは、微調整および選好最適化中の低値応答トークンをマスクし、より価値のある位置でのトレーニング信号に集中する。
実験により、AlphaTokenはトレーニング後のパフォーマンスを改善し、破滅的な忘れを緩和することが示された。
関連論文リスト
- Unlearning What Matters: Token-Level Attribution for Precise Language Model Unlearning [5.454773103061359]
TokenUnlearnはトークンレベルの属性フレームワークで、クリティカルトークンを特定し、選択的にターゲットする。
提案手法は,マスキングによる知識認識信号とエントロピー認識信号を組み合わせて,正確なトークン選択のための重要スコアを得る。
論文 参考訳(メタデータ) (2026-05-01T02:59:03Z) - Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - QuickMerge++: Fast Token Merging with Autoregressive Prior [6.185573921868495]
高速な次世代予測のための軽量フレームワークであるQuickMergeを提案する。
セマンティックサリエンス推定、フレキシブルトークン予算、ARアライメントを組み合わせることで、QuickMergeはより少ないトークンで正確な生成を可能にする。
マルチモダリティドメイン間でQuickMergeを評価し、計算精度のトレードオフを一貫した改善を実証する。
論文 参考訳(メタデータ) (2025-08-16T06:07:33Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。