論文の概要: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2510.00071v1
- Date: Mon, 29 Sep 2025 20:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.159238
- Title: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
- Title(参考訳): ARS: 効率的な大規模推論言語モデルのための適応型推論抑圧
- Authors: Dongqi Zheng,
- Abstract要約: 推論抑制(Reasoning Suppression、ARS)は、冗長な推論ステップを動的に抑制する訓練のないアプローチである。
ARSは53%、46.1%、57.9%のトークン、レイテンシ、エネルギー削減を実現し、精度を維持または改善している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
- Abstract(参考訳): LRLM(Large Reasoning Language Models)は複雑な推論タスクにおいて顕著な能力を示すが、過度に考え直した現象による計算の非効率さに悩まされる。
既存の効率的な推論手法は、推論コストの削減と推論品質のバランスをとるという課題に直面している。
本稿では,適応的確実性監視によって精度を保ちながら冗長な推論ステップを動的に抑制する,新しい訓練自由な手法である「textbf{Adaptive Reasoning Suppression (ARS)」を提案する。
ARSは、進行抑制しきい値を持つマルチチェックポイント確実性推定機構を導入し、静的抑圧法よりも優れた効率を実現する。
複数のモデルアーキテクチャを用いた数学的推論ベンチマークにおいて、ARSはトークン、レイテンシ、エネルギー削減の53%、46.1%、57.9%を達成し、精度を維持または改善していることを示す。
関連論文リスト
- Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency in Large Language Models [38.225442399592936]
動的推論境界自己認識フレームワーク(DR. SAF)について紹介する。
DR.SAFは、境界自己認識アライメント、適応リワード管理、境界保存メカニズムの3つの重要なコンポーネントを統合している。
実験の結果, DR. SAFは全応答トークンの49.27%の削減を実現し, 精度は最小限であった。
論文 参考訳(メタデータ) (2025-08-15T16:40:29Z) - MUR: Momentum Uncertainty guided Reasoning for Large Language Models [23.766037094142117]
大規模言語モデル(LLM)は、推論集約的なタスクにおいて素晴らしいパフォーマンスを達成した。
MUR(Momentum Uncertainty-Guided Reasoning)は、時間とともに段階的に不確実性を追跡・集約することで、思考予算を批判的推論ステップに割り当てる。
その結果、MURは平均50%以上減少し、精度は0.62-3.37%向上した。
論文 参考訳(メタデータ) (2025-07-20T13:36:19Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。
提案手法は,従来の検証手法に比べて2~3倍の効率を維持しつつ,大幅な精度向上(8~11%)を実現している。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。