論文の概要: Training-Trajectory-Aware Token Selection
- arxiv url: http://arxiv.org/abs/2601.10348v1
- Date: Thu, 15 Jan 2026 12:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.134003
- Title: Training-Trajectory-Aware Token Selection
- Title(参考訳): トレーニング・トラジェクトリ・アウェア・トークン選択
- Authors: Zhanming Shen, Jiaqi Hu, Zeyu Qin, Hao Chen, Wentao Ye, Zenan Huang, Yihong Zhuang, Guoshan Lu, Junlin Zhou, Junbo Zhao,
- Abstract要約: トレーニング・トラジェクトリ・アウェアトークン選択は、トークンレベルでトレーニング目標を再構築する。
Qwen3-8Bは競合する推論ベンチマークでDeepSeek-R1を上回っ、Qwen3-32BはQwen3-235Bに近づき、T3でトレーニングされたLLaDA-2.0-MiniはARベースラインを超えた。
- 参考スコア(独自算出の注目度): 21.61891137861789
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient distillation is a key pathway for converting expensive reasoning capability into deployable efficiency, yet in the frontier regime where the student already has strong reasoning ability, naive continual distillation often yields limited gains or even degradation. We observe a characteristic training phenomenon: even as loss decreases monotonically, all performance metrics can drop sharply at almost the same bottleneck, before gradually recovering. We further uncover a token-level mechanism: confidence bifurcates into steadily increasing Imitation-Anchor Tokens that quickly anchor optimization and other yet-to-learn tokens whose confidence is suppressed until after the bottleneck. And the characteristic that these two types of tokens cannot coexist is the root cause of the failure in continual distillation. To this end, we propose Training-Trajectory-Aware Token Selection (T3S) to reconstruct the training objective at the token level, clearing the optimization path for yet-to-learn tokens. T3 yields consistent gains in both AR and dLLM settings: with only hundreds of examples, Qwen3-8B surpasses DeepSeek-R1 on competitive reasoning benchmarks, Qwen3-32B approaches Qwen3-235B, and T3-trained LLaDA-2.0-Mini exceeds its AR baseline, achieving state-of-the-art performance among all of 16B-scale no-think models.
- Abstract(参考訳): 効率的な蒸留は、高価な推論能力を展開可能な効率に転換する鍵となる経路であるが、学生が既に強い推論能力を持っているフロンティア政権では、持続蒸留は限られた利得や劣化をもたらすことが多い。
損失が単調に減少しても、すべてのパフォーマンス指標は、ほぼ同じボトルネックで急降下し、徐々に回復する。
信頼度は着実に増大し、最適化を迅速に固定するImitation-Anchor Tokenや、ボトルネックのあとまで信頼が抑制される未学習トークン等に比例する。
そして、これらの2種類のトークンが共存できないという特徴は、連続蒸留の失敗の根本原因である。
そこで本研究では,トークンレベルでの学習目標を再構築し,未学習トークンの最適化パスをクリアするT3S(Torning-Trajectory-Aware Token Selection)を提案する。
競合する推論ベンチマークでは、Qwen3-8BがDeepSeek-R1を、Qwen3-235BがQwen3-235Bに、T3でトレーニングされたLLaDA-2.0-MiniがARベースラインを越え、16Bスケールの非概念モデルでは最先端のパフォーマンスを達成した。
関連論文リスト
- Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Not All Tokens Are What You Need In Thinking [34.767739567093656]
条件付きトークン選択(CTS)は、思考の連鎖において最も重要なトークンのみを特定し保存する。
CTSは、強い推論性能を維持しながら、効果的に長いCoTを圧縮する。
さらにトレーニングトークンを42%削減すると、限界5%の精度低下しか生じず、推論トークンの75.8%が減少する。
論文 参考訳(メタデータ) (2025-05-23T12:41:29Z) - Sparsity Forcing: Reinforcing Token Sparsity of MLLMs [40.93786579652003]
マルチモーダル大規模言語モデル(MLLM)におけるトークンの分散性を,単純なRLベースのポストトレーニングフレームワークであるtextitSparsity Forcing を用いて明示的に強化する。
本手法では,複数ロールアウトを異なるトークン予算で実行し,効率(トーケン還元率)と性能(回答正当性)の両方を共同報酬として定式化することにより,効率・正確性トレードオフを探索する。
論文 参考訳(メタデータ) (2025-04-23T01:45:55Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification [6.660834045805309]
BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-03T12:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。