Fugu-MT 論文翻訳(概要): On Reasoning Strength Planning in Large Reasoning Models

論文の概要: On Reasoning Strength Planning in Large Reasoning Models

arxiv url: http://arxiv.org/abs/2506.08390v1
Date: Tue, 10 Jun 2025 02:55:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:41.267488
Title: On Reasoning Strength Planning in Large Reasoning Models
Title（参考訳）: 大規模共振モデルにおける共振強度計画について
Authors: Leheng Sheng, An Zhang, Zijian Wu, Weixiang Zhao, Changshuo Shen, Yi Zhang, Xiang Wang, Tat-Seng Chua,
Abstract要約: 我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
参考スコア（独自算出の注目度）: 50.61816666920207
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies empirically reveal that large reasoning models (LRMs) can automatically allocate more reasoning strengths (i.e., the number of reasoning tokens) for harder problems, exhibiting difficulty-awareness for better task performance. While this automatic reasoning strength allocation phenomenon has been widely observed, its underlying mechanism remains largely unexplored. To this end, we provide explanations for this phenomenon from the perspective of model activations. We find evidence that LRMs pre-plan the reasoning strengths in their activations even before generation, with this reasoning strength causally controlled by the magnitude of a pre-allocated directional vector. Specifically, we show that the number of reasoning tokens is predictable solely based on the question activations using linear probes, indicating that LRMs estimate the required reasoning strength in advance. We then uncover that LRMs encode this reasoning strength through a pre-allocated directional vector embedded in the activations of the model, where the vector's magnitude modulates the reasoning strength. Subtracting this vector can lead to reduced reasoning token number and performance, while adding this vector can lead to increased reasoning token number and even improved performance. We further reveal that this direction vector consistently yields positive reasoning length prediction, and it modifies the logits of end-of-reasoning token </think> to affect the reasoning length. Finally, we demonstrate two potential applications of our findings: overthinking behavior detection and enabling efficient reasoning on simple problems. Our work provides new insights into the internal mechanisms of reasoning in LRMs and offers practical tools for controlling their reasoning behaviors. Our code is available at https://github.com/AlphaLab-USTC/LRM-plans-CoT.
Abstract（参考訳）: 近年の研究では、より大きな推論モデル(LRM)が、より難しい問題に対して推論強度(すなわち推論トークンの数)を自動で割り当てることが実証されている。この自動推論強度割り当て現象は広く観測されているが、その基盤となるメカニズムはほとんど解明されていない。この目的のために、モデルアクティベーションの観点から、この現象を説明する。我々は, LRM が, 生成前であっても, アクティベーションにおける推論強度を予め計画している証拠を見いだし, 予め配置された方向ベクトルの大きさによって, 因果的に制御されている。具体的には、線形プローブを用いた質問活性化のみに基づいて推論トークンの数が予測可能であることを示し、LEMが予め要求される推論強度を推定することを示す。次に, LRM がこの推論強度を, ベクトルの等級が推論強度を変調するモデルのアクティベーションに埋め込まれた, 予め配置された方向ベクトルによって符号化することを明らかにする。このベクトルを置換すると推論トークン数と性能が低下し、このベクトルを追加すると推論トークン数が増加し、パフォーマンスが向上する。さらに,この方向ベクトルは正の推論長予測を連続的に生成し,終末トークン </think> のロジットを変化させて推論長に影響を与えることを明らかにした。最後に、動作検出の過度な検討と、簡単な問題に対する効率的な推論の2つの潜在的な応用を実証する。我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。私たちのコードはhttps://github.com/AlphaLab-USTC/LRM-plans-CoT.comで公開されています。

関連論文リスト

BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit [12.189197763012409]
大規模言語モデル(LRM)は人工知能の重要な進歩として現れている。本稿では,LRMに対する未探索攻撃ベクトルを同定し,これを「過度なチューナブル」と呼ぶ。そこで本研究では,単純なオン/オフ攻撃を超越して,攻撃者がモデルの推論冗長性の範囲を正確に制御できるような,新たな調整可能なバックドアを提案する。
論文参考訳（メタデータ） (2025-07-24T11:24:35Z)
Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文参考訳（メタデータ） (2025-07-21T18:08:38Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。 $ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文参考訳（メタデータ） (2025-06-24T10:25:28Z)
Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文参考訳（メタデータ） (2025-06-17T06:04:01Z)
Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning [33.040747962183076]
大規模推論モデル(LRM)は複雑な問題解決において顕著な能力を示したが、その内部の推論機構はよく理解されていない。特定の生成段階におけるMIは, LRMの推論過程において, 突然, 顕著な増加を示す。次に、これらのシンキングトークンがLRMの推論性能に不可欠であるのに対して、他のトークンは最小限の影響しか与えないことを示す。
論文参考訳（メタデータ） (2025-06-03T13:31:10Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文参考訳（メタデータ） (2025-05-15T17:58:33Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文参考訳（メタデータ） (2025-03-27T17:44:18Z)
Process or Result? Manipulated Ending Tokens Can Mislead Reasoning LLMs to Ignore the Correct Reasoning Steps [39.759594479826454]
入力推論チェーンの微妙なエラーに対するモデル推論の脆弱性について検討する。この脆弱性は、操作された計算結果を含む推論トークンが提示されたモデルが正しい推論ステップを無視し、その代わりに誤った結果を採用する傾向がある。我々の研究は、推論の堅牢性を理解することを強化し、推論集約アプリケーションに対するセキュリティ上の配慮を強調します。
論文参考訳（メタデータ） (2025-03-25T03:43:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。