Fugu-MT 論文翻訳(概要): Controlling Thinking Speed in Reasoning Models

論文の概要: Controlling Thinking Speed in Reasoning Models

arxiv url: http://arxiv.org/abs/2507.03704v1
Date: Fri, 04 Jul 2025 16:41:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.843521
Title: Controlling Thinking Speed in Reasoning Models
Title（参考訳）: 推論モデルにおける思考速度の制御
Authors: Zhengkai Lin, Zhihang Fu, Ze Chen, Chao Chen, Liang Xie, Wenxiao Wang, Deng Cai, Zheng Wang, Jieping Ye,
Abstract要約: 人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作する。本研究では,LRMが動的思考速度調整によって人間の知能を近似することを可能にする。提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。
参考スコア（独自算出の注目度）: 41.72496532709135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human cognition is theorized to operate in two modes: fast, intuitive System 1 thinking and slow, deliberate System 2 thinking. While current Large Reasoning Models (LRMs) excel at System 2 thinking, their inability to perform fast thinking leads to high computational overhead and latency. In this work, we enable LRMs to approximate human intelligence through dynamic thinking speed adjustment, optimizing accuracy-efficiency trade-offs. Our approach addresses two key questions: (1) how to control thinking speed in LRMs, and (2) when to adjust it for optimal performance. For the first question, we identify the steering vector that governs slow-fast thinking transitions in LRMs' representation space. Using this vector, we achieve the first representation editing-based test-time scaling effect, outperforming existing prompt-based scaling methods. For the second question, we apply real-time difficulty estimation to signal reasoning segments of varying complexity. Combining these techniques, we propose the first reasoning strategy that enables fast processing of easy steps and deeper analysis for complex reasoning. Without any training or additional cost, our plug-and-play method yields an average +1.3% accuracy with -8.6% token usage across leading LRMs and advanced reasoning benchmarks. All of our algorithms are implemented based on vLLM and are expected to support broader applications and inspire future research.
Abstract（参考訳）: 人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作するように理論化されている。現在のLarge Reasoning Models (LRM) は System 2 の思考では優れていますが、高速な思考ができないため、高い計算オーバーヘッドと遅延が発生します。本研究では,人間の知能を動的思考速度調整により近似し,精度と効率のトレードオフを最適化する。提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。まず, LRMの表現空間における低速思考遷移を規定するステアリングベクトルを同定する。このベクトルを用いて、既存のプロンプトベースのスケーリング手法よりも優れた、編集ベースのテスト時間スケーリング効果を初めて達成する。 2つ目の質問は、様々な複雑さの信号推論セグメントにリアルタイムの難易度推定を適用することである。これらの手法を組み合わせることで、簡単なステップの高速処理と複雑な推論のためのより深い解析を可能にする最初の推論戦略を提案する。トレーニングや追加のコストがなければ、当社のプラグアンドプレイ方式は平均+1.3%の精度で、先進的なLCMと高度な推論ベンチマークで8.6%のトークンを使用することができる。すべてのアルゴリズムはvLLMに基づいて実装されており、より広範なアプリケーションをサポートし、将来の研究を促すことが期待されている。

関連論文リスト

Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Z1: Efficient Test-time Scaling with Code [26.374317704720234]
大規模言語モデル(LLM)は、テスト時間コンピューティングのスケーリングを通じて、複雑な問題解決を実現することができる。本稿では,LLMをコード関連推論軌道上で学習する効率的なテスト時間スケーリング手法を提案する。オーバヘッドを過度に考慮する新しいシフトドシンキングウィンドウを提案する。
論文参考訳（メタデータ） (2025-04-01T14:01:50Z)
From System 1 to System 2: A Survey of Reasoning Large Language Models [72.87412996793957]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。 OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-02-24T18:50:52Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Efficiently Scaling LLM Reasoning with Certaindex [25.549811985276488]
テストタイム推論アルゴリズムは、精度を向上することなく、多くのトークンを無駄に生成することができる。本稿では,アルゴリズムに依存しない測定値であるCertaindexを導入する。 Certaindexは軽量で、早期終了による推論プログラムの推論を加速し、動的トークン割り当てを可能にする。
論文参考訳（メタデータ） (2024-12-30T14:57:53Z)
Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:13Z)
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-18T16:21:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。