論文の概要: Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.18383v1
- Date: Mon, 26 Jan 2026 11:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.799105
- Title: Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models
- Title(参考訳): 大規模推論モデルにおける効率的な推論のための動的思考-学習選択
- Authors: Zhenyuan Guo, Tong Chen, Wenlong Meng, Chen Gong, Xin Yu, Chengkun Wei, Wenzhi Chen,
- Abstract要約: 大規模推論モデル(LRM)は、最終的な答えを導き出す前に推論トレースを明示的に生成することにより、複雑な問題を解決するのに優れている。
しかし、世代が長くなるとメモリフットプリントが大幅に増加し、計算オーバーヘッドが増大し、LRMの効率が低下した。
この研究は、注意マップを用いて推論トレースの影響を分析し、興味深い現象を明らかにする。
推論においていくつかの決定クリティカルなトークンだけが最終解に向かってモデルを操り、残りのトークンは無視的に寄与する。
- 参考スコア(独自算出の注目度): 29.494777688316674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) excel at solving complex problems by explicitly generating a reasoning trace before deriving the final answer. However, these extended generations incur substantial memory footprint and computational overhead, bottlenecking LRMs' efficiency. This work uses attention maps to analyze the influence of reasoning traces and uncover an interesting phenomenon: only some decision-critical tokens in a reasoning trace steer the model toward the final answer, while the remaining tokens contribute negligibly. Building on this observation, we propose Dynamic Thinking-Token Selection (DynTS). This method identifies decision-critical tokens and retains only their associated Key-Value (KV) cache states during inference, evicting the remaining redundant entries to optimize efficiency.
- Abstract(参考訳): 大規模推論モデル(LRM)は、最終的な答えを導き出す前に、推論トレースを明示的に生成することで、複雑な問題を解決するのに優れている。
しかし、これらの拡張世代はメモリフットプリントと計算オーバーヘッドを発生させ、LRMの効率をボトルネックにした。
この研究は、注意マップを用いて、推論トレースの影響を分析し、興味深い現象を明らかにする:推論トレースにおける決定クリティカルなトークンだけが最終回答に向かってモデルを操り、残りのトークンは無視的に寄与する。
この観測に基づいて,動的思考・思考選択(DynTS)を提案する。
この方法は、決定クリティカルトークンを特定し、推論中に関連するキーバリュー(KV)キャッシュ状態のみを保持し、残りの冗長エントリを排除して効率を最適化する。
関連論文リスト
- Do LLMs Encode Functional Importance of Reasoning Tokens? [11.21558453188654]
推論トークンを反復的に除去する確率保存的削除手順であるgreedy pruningを提案する。
本研究では, プルーニングチェーンを訓練した学生が, 一致した推論長でフロンティアモデルによる圧縮ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2026-01-06T14:50:02Z) - Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - Efficient Inference for Large Reasoning Models: A Survey [74.17203483365171]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。