Fugu-MT 論文翻訳(概要): Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models

論文の概要: Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models

arxiv url: http://arxiv.org/abs/2601.18383v1
Date: Mon, 26 Jan 2026 11:31:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-27 15:23:08.799105
Title: Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models
Title（参考訳）: 大規模推論モデルにおける効率的な推論のための動的思考-学習選択
Authors: Zhenyuan Guo, Tong Chen, Wenlong Meng, Chen Gong, Xin Yu, Chengkun Wei, Wenzhi Chen,
Abstract要約: 大規模推論モデル(LRM)は、最終的な答えを導き出す前に推論トレースを明示的に生成することにより、複雑な問題を解決するのに優れている。しかし、世代が長くなるとメモリフットプリントが大幅に増加し、計算オーバーヘッドが増大し、LRMの効率が低下した。この研究は、注意マップを用いて推論トレースの影響を分析し、興味深い現象を明らかにする。推論においていくつかの決定クリティカルなトークンだけが最終解に向かってモデルを操り、残りのトークンは無視的に寄与する。
参考スコア（独自算出の注目度）: 29.494777688316674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Reasoning Models (LRMs) excel at solving complex problems by explicitly generating a reasoning trace before deriving the final answer. However, these extended generations incur substantial memory footprint and computational overhead, bottlenecking LRMs' efficiency. This work uses attention maps to analyze the influence of reasoning traces and uncover an interesting phenomenon: only some decision-critical tokens in a reasoning trace steer the model toward the final answer, while the remaining tokens contribute negligibly. Building on this observation, we propose Dynamic Thinking-Token Selection (DynTS). This method identifies decision-critical tokens and retains only their associated Key-Value (KV) cache states during inference, evicting the remaining redundant entries to optimize efficiency.
Abstract（参考訳）: 大規模推論モデル(LRM)は、最終的な答えを導き出す前に、推論トレースを明示的に生成することで、複雑な問題を解決するのに優れている。しかし、これらの拡張世代はメモリフットプリントと計算オーバーヘッドを発生させ、LRMの効率をボトルネックにした。この研究は、注意マップを用いて、推論トレースの影響を分析し、興味深い現象を明らかにする:推論トレースにおける決定クリティカルなトークンだけが最終回答に向かってモデルを操り、残りのトークンは無視的に寄与する。この観測に基づいて,動的思考・思考選択(DynTS)を提案する。この方法は、決定クリティカルトークンを特定し、推論中に関連するキーバリュー(KV)キャッシュ状態のみを保持し、残りの冗長エントリを排除して効率を最適化する。

関連論文リスト

Do LLMs Encode Functional Importance of Reasoning Tokens? [11.21558453188654]
推論トークンを反復的に除去する確率保存的削除手順であるgreedy pruningを提案する。本研究では, プルーニングチェーンを訓練した学生が, 一致した推論長でフロンティアモデルによる圧縮ベースラインより優れていることを示す。
論文参考訳（メタデータ） (2026-01-06T14:50:02Z)
Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。 $ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文参考訳（メタデータ） (2025-06-24T10:25:28Z)
Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文参考訳（メタデータ） (2025-06-17T06:04:01Z)
On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文参考訳（メタデータ） (2025-06-10T02:55:13Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。 PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文参考訳（メタデータ） (2025-05-25T15:17:57Z)
Efficient Inference for Large Reasoning Models: A Survey [74.17203483365171]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文参考訳（メタデータ） (2025-03-29T13:27:46Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T07:41:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。