論文の概要: Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement
- arxiv url: http://arxiv.org/abs/2506.15647v1
- Date: Wed, 18 Jun 2025 17:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.757388
- Title: Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement
- Title(参考訳): 自己誘導効率向上のための大規模共振モデルにおける因果効率の探索と展開
- Authors: Weixiang Zhao, Jiahe Guo, Yang Deng, Xingyu Sui, Yulin Hu, Yanyan Zhao, Wanxiang Che, Bing Qin, Tat-Seng Chua, Ting Liu,
- Abstract要約: 大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
- 参考スコア(独自算出の注目度): 101.77467538102924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large reasoning models (LRMs) have significantly enhanced language models' capabilities in complex problem-solving by emulating human-like deliberative thinking. However, these models often exhibit overthinking (i.e., the generation of unnecessarily verbose and redundant content), which hinders efficiency and inflates inference cost. In this work, we explore the representational and behavioral origins of this inefficiency, revealing that LRMs inherently possess the capacity for more concise reasoning. Empirical analyses show that correct reasoning paths vary significantly in length, and the shortest correct responses often suffice, indicating untapped efficiency potential. Exploiting these findings, we propose two lightweight methods to enhance LRM efficiency. First, we introduce Efficiency Steering, a training-free activation steering technique that modulates reasoning behavior via a single direction in the model's representation space. Second, we develop Self-Rewarded Efficiency RL, a reinforcement learning framework that dynamically balances task accuracy and brevity by rewarding concise correct solutions. Extensive experiments on seven LRM backbones across multiple mathematical reasoning benchmarks demonstrate that our methods significantly reduce reasoning length while preserving or improving task performance. Our results highlight that reasoning efficiency can be improved by leveraging and guiding the intrinsic capabilities of existing models in a self-guided manner.
- Abstract(参考訳): 大規模推論モデル(LRM)の最近の進歩は、人間のような熟考的思考をエミュレートすることによって、複雑な問題解決における言語モデルの能力を大幅に向上させた。
しかし、これらのモデルは、しばしば過度に考え抜かれ(すなわち、不要な冗長なコンテンツと冗長なコンテンツの生成)、効率を妨げ、推論コストを膨らませる。
本研究では、この非効率性の表現的および行動的起源を探求し、LEMが本質的により簡潔な推論能力を持っていることを明らかにした。
経験的分析では、正しい推論経路は長さによって大きく異なることが示され、最も短い正しい反応は、しばしば十分であり、未解決の効率性を示す。
本研究は, LRM効率を向上させるための2つの軽量な手法を提案する。
まず、モデルの表現空間における単一方向の推論動作を変調する、トレーニング不要なアクティベーションステアリング技術である、効率ステアリングを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発した。
複数の数学的推論ベンチマークにおける7つのLRMバックボーンの広範囲な実験により,タスク性能の維持や改善を図りながら,提案手法は推論時間を大幅に短縮することが示された。
この結果から,自己誘導方式で既存モデルの本質的な能力を活用・誘導することで推論効率を向上できることが示唆された。
関連論文リスト
- Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Efficient Inference for Large Reasoning Models: A Survey [41.239535590590435]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners [18.960920426485163]
自己改善は、パフォーマンスを向上させる主要な方法として現れています。
本稿では,この反復的プロセスにおいて2つの重要な要因をモニタする手法を提案し,提案する。
B-STaRは、反復的な構成を調整し、探索とエクスプロイトのバランスをとる自己学習推論フレームワークである。
論文 参考訳(メタデータ) (2024-12-23T03:58:34Z) - The Role of Deductive and Inductive Reasoning in Large Language Models [37.430396755248104]
本稿では,大規模言語モデル(LLM)推論を強化するために,DID法を提案する。
DIDはリトルストーン次元と情報エントロピーを組み合わせた2次元複雑度評価システムを実装している。
その結果,推理精度と解の精度は有意に向上した。
論文 参考訳(メタデータ) (2024-10-03T18:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。