論文の概要: PAC Reasoning: Controlling the Performance Loss for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2510.09133v1
- Date: Fri, 10 Oct 2025 08:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.932548
- Title: PAC Reasoning: Controlling the Performance Loss for Efficient Reasoning
- Title(参考訳): PAC推論:効率的な推論のための性能損失の制御
- Authors: Hao Zeng, Jianguo Huang, Bingyi Jing, Hongxin Wei, Bo An,
- Abstract要約: 大規模推論モデル(LRM)は複雑な問題解決タスクにおいて顕著な進歩を遂げた。
LRMは通常、展開中に高い計算コストに悩まされる。
本稿では,ユーザが指定した性能損失耐性の下での性能損失を制御するPAC推論を提案する。
- 参考スコア(独自算出の注目度): 33.71268958080582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have achieved remarkable progress in complex problem-solving tasks. Despite this success, LRMs typically suffer from high computational costs during deployment, highlighting a need for efficient inference. A popular direction of efficiency improvement is to switch the LRM between thinking and nonthinking modes dynamically. However, such approaches often introduce additional reasoning errors and lack statistical guarantees for the performance loss, which are critical for high-stakes applications. In this work, we propose Probably Approximately Correct (PAC) reasoning that controls the performance loss under the user-specified performance loss tolerance. In particular, we construct an upper confidence bound on the performance loss, formulated as a monotone function of the uncertainty score, and subsequently determine a threshold for switching to the nonthinking model. Theoretically, using the threshold to switch between the thinking and nonthinking modes ensures bounded performance loss in a distribution-free manner. Our comprehensive experiments on reasoning benchmarks show that the proposed method can save computational budgets and control the user-specified performance loss.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑な問題解決タスクにおいて顕著な進歩を遂げた。
この成功にもかかわらず、LEMは通常、デプロイ中に高い計算コストに悩まされ、効率的な推論の必要性を強調している。
効率改善の一般的な方向は、LRMを思考モードと非思考モードに動的に切り替えることである。
しかし、このようなアプローチは、しばしば追加の推論エラーを導入し、性能損失の統計的保証を欠いている。
本研究では,ユーザが指定した性能損失耐性の下での性能損失を制御する確率的近似(PAC)推論を提案する。
特に,不確実性スコアの単調関数として定式化された性能損失に拘束される上位信頼度を構築し,その後,非思考モデルに切り替える閾値を決定する。
理論的には、思考モードと非思考モードを切り替える閾値を用いることで、分布のない方法での有界な性能損失が保証される。
提案手法は,提案手法が計算予算を削減し,ユーザが特定した性能損失を制御することができることを示す。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - How Far Are We from Optimal Reasoning Efficiency? [23.593914897406943]
大きな推論モデル (LRM) は、拡張されたチェーン・オブ・ソート (CoT) 推論を通じて、顕著な問題解決能力を示す。
LRMはしばしば冗長で冗長な推論トレースを生成する。
既存の微調整手法は推論効率を改善することを目的としているが、その効率性を評価することは依然として困難である。
論文 参考訳(メタデータ) (2025-06-08T12:18:50Z) - When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning [20.233873556056487]
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を達成するが、しばしば冗長な推論のために過剰な計算オーバーヘッドを引き起こす。
本稿では、不必要な推論を抑え、暗黙の回復を可能にするフレームワークである適応自己回復推論(ASRR)を提案する。
本研究は, LRMの効率, 適応性, 安全性を高めるためのASRRの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-21T11:41:39Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models [32.49420948390984]
大規模推論モデル(LRM)は、しばしば過度に冗長な推論ステップを生成し、性能の向上が制限されるという過大な問題に悩まされる。
本研究では, LRMが不要な中間ステップを回避し, 計算コストを大幅に削減できる簡易で効率的なパイプライン, Methodを提案する。
論文 参考訳(メタデータ) (2025-04-18T11:07:19Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。