論文の概要: ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy
- arxiv url: http://arxiv.org/abs/2505.15684v1
- Date: Wed, 21 May 2025 15:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.759502
- Title: ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy
- Title(参考訳): ThinkLess: 推論の冗長性を低減するためのトレーニング不要な効率的な方法
- Authors: Gengyang Li, Yifeng Gao, Yuming Li, Yunfang Wu,
- Abstract要約: ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 8.962703809086628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Chain-of-Thought (CoT) prompting improves reasoning in large language models (LLMs), the excessive length of reasoning tokens increases latency and KV cache memory usage, and may even truncate final answers under context limits. We propose ThinkLess, an inference-efficient framework that terminates reasoning generation early and maintains output quality without modifying the model. Atttention analysis reveals that answer tokens focus minimally on earlier reasoning steps and primarily attend to the reasoning terminator token, due to information migration under causal masking. Building on this insight, ThinkLess inserts the terminator token at earlier positions to skip redundant reasoning while preserving the underlying knowledge transfer. To prevent format discruption casued by early termination, ThinkLess employs a lightweight post-regulation mechanism, relying on the model's natural instruction-following ability to produce well-structured answers. Without fine-tuning or auxiliary data, ThinkLess achieves comparable accuracy to full-length CoT decoding while greatly reducing decoding time and memory consumption.
- Abstract(参考訳): CoT(Chain-of-Thought)が大きな言語モデル(LLM)の推論を改善する一方で、推論トークンの過剰な長さはレイテンシとKVキャッシュメモリ使用量を増やし、コンテキスト制限の下で最終回答を切断する可能性がある。
我々は、推論効率の良いフレームワークであるThinkLessを提案し、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
注意点分析により、解答トークンは、因果マスキングの下での情報移動のために、初期推論ステップに最小限に焦点を合わせ、主に推論終端トークンに参画することが明らかとなった。
この洞察に基づいてThinkLessは、初期位置でターミネータトークンを挿入し、基礎となる知識転送を維持しながら冗長な推論を省略する。
早期終了による形式破壊を防止するため、ThinkLessは、モデルが適切に構造化された回答を生成するための自然な命令追従能力に依存する、軽量な後制御機構を採用している。
微調整や補助的なデータがないため、ThinkLessは完全長のCoTデコードに匹敵する精度を実現し、デコード時間とメモリ消費を大幅に削減する。
関連論文リスト
- Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning [5.509438832617275]
Prune-on-LogicはLong-CoTをロジックグラフに変換するフレームワークである。
プルーニング検証のステップが一貫した精度向上をもたらすことが判明した。
論文 参考訳(メタデータ) (2025-05-20T16:38:32Z) - SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReasonは、LEM推論を加速するシステムである。
最終回答の正確性を維持する上で、思考トークンのセマンティックな柔軟性を利用する。
バニラLEM推論よりも1.4-3.0times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-04-10T16:05:19Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。