論文の概要: Anytime Safe PAC Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2601.22446v1
- Date: Fri, 30 Jan 2026 01:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.148602
- Title: Anytime Safe PAC Efficient Reasoning
- Title(参考訳): いつでも安全なPAC共振器
- Authors: Chengyao Yu, Hao Zeng, Youxin Zhu, Jianguo Huang, Huajun Zeng, Bingyi Jing,
- Abstract要約: 大規模推論モデル(LRM)は複雑なタスクにおいて顕著な性能を示すが、高い計算コストと遅延に悩まされている。
本稿では,部分的フィードバック下での安全かつ効率的なオンライン推論を可能にする原理的手法であるBetting Probably Aough Correct (B-PAC)推論を提案する。
- 参考スコア(独自算出の注目度): 8.618430092165498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable performance on complex tasks but suffer from high computational costs and latency. While selective thinking strategies improve efficiency by routing easy queries to non-thinking models, existing approaches often incur uncontrollable errors, especially in online settings where the performance loss of a non-thinking model is only partially observed and data are non-stationary. To address this, we propose Betting Probably Approximately Correct (B-PAC) reasoning, a principled method that enables anytime safe and efficient online reasoning under partial feedback. Specifically, we utilize inverse propensity scoring estimators to construct test supermartingales for candidate thresholds, and then dynamically adjust the routing threshold based on the accumulated statistical evidence of safety. Theoretically, we establish the anytime-valid performance loss control and the efficiency of B-PAC reasoning. Extensive experiments demonstrate that B-PAC reasoning significantly reduces computational overhead, decreasing thinking model usage by up to 81.01\%, while controlling the performance loss below the user-specified level.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑なタスクにおいて顕著な性能を示すが、高い計算コストと遅延に悩まされている。
選択的な思考戦略は、簡単なクエリを非思考モデルにルーティングすることで効率を向上させるが、既存のアプローチでは、特に非思考モデルのパフォーマンス損失が部分的にしか観察されず、データが静止していないオンライン環境では、制御不能なエラーが発生することが多い。
そこで本稿では,B-PAC推論(Betting Probably Aough correct reasoning, B-PAC)を提案する。
具体的には、逆正当性スコアリング推定器を用いて、候補しきい値に対するテストスーパーマーティンガルを構築し、蓄積された統計的安全性の証拠に基づいてルーティングしきい値を動的に調整する。
理論的には、常に有効な性能損失制御とB-PAC推論の効率を確立する。
実験により,B-PAC推論は計算オーバーヘッドを大幅に低減し,思考モデルの使用量を最大81.01\%削減し,ユーザ指定レベル以下の性能損失を抑えることができた。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - EntroCut: Entropy-Guided Adaptive Truncation for Efficient Chain-of-Thought Reasoning in Small-scale Large Reasoning Models [42.49934375597466]
大規模推論モデル(LRM)は、拡張連鎖生成による複雑な推論タスクに優れる。
初期の推論ステップにおけるモデル出力分布のエントロピーは、正しい推論と間違った推論とを確実に区別する。
本研究では,高信頼状態を特定することによって推論を動的に切り離す訓練自由度手法であるEntroCutを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:19:16Z) - PAC Reasoning: Controlling the Performance Loss for Efficient Reasoning [33.71268958080582]
大規模推論モデル(LRM)は複雑な問題解決タスクにおいて顕著な進歩を遂げた。
LRMは通常、展開中に高い計算コストに悩まされる。
本稿では,ユーザが指定した性能損失耐性の下での性能損失を制御するPAC推論を提案する。
論文 参考訳(メタデータ) (2025-10-10T08:33:47Z) - Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization [26.462701299259248]
大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑なタスクに強い性能を示す。
長いアウトプットは計算コストを増大させ、過度に考え直し、推論の有効性と効率のバランスをとる上での課題を提起する。
本稿では, LRMの生成時間を削減するための効率的な手法について検討する。
論文 参考訳(メタデータ) (2025-08-13T20:00:09Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [43.91094438704087]
SelfBudgeterは、アダプティブな制御可能な推論フレームワークで、推論の前に予算推定メカニズムを組み込む。
本稿では,問題複雑度に応じて予算を動的に割り当てることにより,平均応答長61%の圧縮が得られることを示す。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Performance Control in Early Exiting to Deploy Large Models at the Same Cost of Smaller Ones [17.797465636040087]
Early Exiting(EE)は,計算資源をデータポイントに適応的に割り当てることによって推論を高速化する,有望な技術である。
私たちはまず、EEアプローチに関する新しい視点を示し、EEでデプロイされたより大きなモデルは、より小さなモデルよりも高いパフォーマンスを達成することができることを示した。
本稿では,データポイントの信頼度ではなく,サンプルの平均精度に基づいて精度閾値を決定する手法であるPCEE(Performance Control Early Exiting)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T18:54:32Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。