論文の概要: Not All Tokens Are What You Need In Thinking
- arxiv url: http://arxiv.org/abs/2505.17827v1
- Date: Fri, 23 May 2025 12:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.072201
- Title: Not All Tokens Are What You Need In Thinking
- Title(参考訳): すべてのトークンが、あなたが考えるのに必要なものではない
- Authors: Hang Yuan, Bin Yu, Haotian Li, Shijun Yang, Christina Dan Wang, Zhou Yu, Xueyin Xu, Weizhen Qi, Kai Chen,
- Abstract要約: 条件付きトークン選択(CTS)は、思考の連鎖において最も重要なトークンのみを特定し保存する。
CTSは、強い推論性能を維持しながら、効果的に長いCoTを圧縮する。
さらにトレーニングトークンを42%削減すると、限界5%の精度低下しか生じず、推論トークンの75.8%が減少する。
- 参考スコア(独自算出の注目度): 34.767739567093656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern reasoning models, such as OpenAI's o1 and DeepSeek-R1, exhibit impressive problem-solving capabilities but suffer from critical inefficiencies: high inference latency, excessive computational resource consumption, and a tendency toward overthinking -- generating verbose chains of thought (CoT) laden with redundant tokens that contribute minimally to the final answer. To address these issues, we propose Conditional Token Selection (CTS), a token-level compression framework with a flexible and variable compression ratio that identifies and preserves only the most essential tokens in CoT. CTS evaluates each token's contribution to deriving correct answers using conditional importance scoring, then trains models on compressed CoT. Extensive experiments demonstrate that CTS effectively compresses long CoT while maintaining strong reasoning performance. Notably, on the GPQA benchmark, Qwen2.5-14B-Instruct trained with CTS achieves a 9.1% accuracy improvement with 13.2% fewer reasoning tokens (13% training token reduction). Further reducing training tokens by 42% incurs only a marginal 5% accuracy drop while yielding a 75.8% reduction in reasoning tokens, highlighting the prevalence of redundancy in existing CoT.
- Abstract(参考訳): OpenAIのo1やDeepSeek-R1といった現代の推論モデルは、目覚ましい問題解決能力を示すが、重大な非効率に悩まされている。
このような問題に対処するため,我々は,CoTの最も重要なトークンのみを識別・保存するフレキシブルかつ可変な圧縮比を持つトークンレベルの圧縮フレームワークであるConditional Token Selection (CTS)を提案する。
CTSは、条件付き重要度スコアリングを用いて正しい回答を導出するための各トークンの寄与を評価し、圧縮CoT上でモデルを訓練する。
大規模な実験により、CTSは強い推論性能を維持しながら、CoTを効果的に圧縮することを示した。
特に、GPQAベンチマークでは、Qwen2.5-14B-InstructがCTSでトレーニングされ、9.1%の精度向上と13.2%の推論トークン(13%のトレーニングトークン削減)を実現している。
さらにトレーニングトークンを42%減らすと、限界5%の精度低下しか生じず、推論トークンの75.8%が減少し、既存のCoTの冗長性が顕著になる。
関連論文リスト
- VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Accelerating Chain-of-Thought Reasoning: When Goal-Gradient Importance Meets Dynamic Skipping [3.521097198612099]
Adaptive GoGI-Skipは、教師付き微調整によって動的CoT圧縮を学ぶ新しいフレームワークである。
CoTトークンの数を平均で45%以上削減し、1.6~2.0倍の推論スピードアップを実現している。
特に、高い効率の圧縮速度でも精度を保ち、既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-05-13T09:39:18Z) - TokenSkip: Controllable Chain-of-Thought Compression in LLMs [11.583847083770031]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明されている。
TokenSkipは、LLMが重要でないトークンを選択的にスキップし、制御可能なCoT圧縮を可能にする、シンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-02-17T17:37:26Z) - CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-13T18:52:36Z) - Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。
テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。
本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。