Fugu-MT 論文翻訳(概要): ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy

論文の概要: ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy

arxiv url: http://arxiv.org/abs/2505.15684v1
Date: Wed, 21 May 2025 15:58:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.759502
Title: ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy
Title（参考訳）: ThinkLess: 推論の冗長性を低減するためのトレーニング不要な効率的な方法
Authors: Gengyang Li, Yifeng Gao, Yuming Li, Yunfang Wu,
Abstract要約: ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
参考スコア（独自算出の注目度）: 8.962703809086628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Chain-of-Thought (CoT) prompting improves reasoning in large language models (LLMs), the excessive length of reasoning tokens increases latency and KV cache memory usage, and may even truncate final answers under context limits. We propose ThinkLess, an inference-efficient framework that terminates reasoning generation early and maintains output quality without modifying the model. Atttention analysis reveals that answer tokens focus minimally on earlier reasoning steps and primarily attend to the reasoning terminator token, due to information migration under causal masking. Building on this insight, ThinkLess inserts the terminator token at earlier positions to skip redundant reasoning while preserving the underlying knowledge transfer. To prevent format discruption casued by early termination, ThinkLess employs a lightweight post-regulation mechanism, relying on the model's natural instruction-following ability to produce well-structured answers. Without fine-tuning or auxiliary data, ThinkLess achieves comparable accuracy to full-length CoT decoding while greatly reducing decoding time and memory consumption.
Abstract（参考訳）: CoT(Chain-of-Thought)が大きな言語モデル(LLM)の推論を改善する一方で、推論トークンの過剰な長さはレイテンシとKVキャッシュメモリ使用量を増やし、コンテキスト制限の下で最終回答を切断する可能性がある。我々は、推論効率の良いフレームワークであるThinkLessを提案し、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。注意点分析により、解答トークンは、因果マスキングの下での情報移動のために、初期推論ステップに最小限に焦点を合わせ、主に推論終端トークンに参画することが明らかとなった。この洞察に基づいてThinkLessは、初期位置でターミネータトークンを挿入し、基礎となる知識転送を維持しながら冗長な推論を省略する。早期終了による形式破壊を防止するため、ThinkLessは、モデルが適切に構造化された回答を生成するための自然な命令追従能力に依存する、軽量な後制御機構を採用している。微調整や補助的なデータがないため、ThinkLessは完全長のCoTデコードに匹敵する精度を実現し、デコード時間とメモリ消費を大幅に削減する。

関連論文リスト

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。 DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文参考訳（メタデータ） (2025-06-23T16:20:44Z)
Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文参考訳（メタデータ） (2025-06-17T06:04:01Z)
Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion [34.582439587552656]
ゼロショット・チェーン・オブ・サート・プロセスの成功を完了前に予測できるかどうかを検討する。 LLM表現に基づく探索分類器は,単一トークンが生成される前にも良好に動作することがわかった。
論文参考訳（メタデータ） (2025-05-30T08:54:28Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning [5.509438832617275]
Prune-on-LogicはLong-CoTをロジックグラフに変換するフレームワークである。プルーニング検証のステップが一貫した精度向上をもたらすことが判明した。
論文参考訳（メタデータ） (2025-05-20T16:38:32Z)
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReasonは、LEM推論を加速するシステムである。最終回答の正確性を維持する上で、思考トークンのセマンティックな柔軟性を利用する。バニラLEM推論よりも1.4-3.0times$のスピードアップを実現している。
論文参考訳（メタデータ） (2025-04-10T16:05:19Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。 SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
Remembering for the Right Reasons: Explanations Reduce Catastrophic Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。 RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文参考訳（メタデータ） (2020-10-04T10:05:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。