論文の概要: Anytime Safe PAC Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2601.22446v1
- Date: Fri, 30 Jan 2026 01:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.148602
- Title: Anytime Safe PAC Efficient Reasoning
- Title(参考訳): いつでも安全なPAC共振器
- Authors: Chengyao Yu, Hao Zeng, Youxin Zhu, Jianguo Huang, Huajun Zeng, Bingyi Jing,
- Abstract要約: 大規模推論モデル(LRM)は複雑なタスクにおいて顕著な性能を示すが、高い計算コストと遅延に悩まされている。
本稿では,部分的フィードバック下での安全かつ効率的なオンライン推論を可能にする原理的手法であるBetting Probably Aough Correct (B-PAC)推論を提案する。
- 参考スコア(独自算出の注目度): 8.618430092165498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable performance on complex tasks but suffer from high computational costs and latency. While selective thinking strategies improve efficiency by routing easy queries to non-thinking models, existing approaches often incur uncontrollable errors, especially in online settings where the performance loss of a non-thinking model is only partially observed and data are non-stationary. To address this, we propose Betting Probably Approximately Correct (B-PAC) reasoning, a principled method that enables anytime safe and efficient online reasoning under partial feedback. Specifically, we utilize inverse propensity scoring estimators to construct test supermartingales for candidate thresholds, and then dynamically adjust the routing threshold based on the accumulated statistical evidence of safety. Theoretically, we establish the anytime-valid performance loss control and the efficiency of B-PAC reasoning. Extensive experiments demonstrate that B-PAC reasoning significantly reduces computational overhead, decreasing thinking model usage by up to 81.01\%, while controlling the performance loss below the user-specified level.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑なタスクにおいて顕著な性能を示すが、高い計算コストと遅延に悩まされている。
選択的な思考戦略は、簡単なクエリを非思考モデルにルーティングすることで効率を向上させるが、既存のアプローチでは、特に非思考モデルのパフォーマンス損失が部分的にしか観察されず、データが静止していないオンライン環境では、制御不能なエラーが発生することが多い。
そこで本稿では,B-PAC推論(Betting Probably Aough correct reasoning, B-PAC)を提案する。
具体的には、逆正当性スコアリング推定器を用いて、候補しきい値に対するテストスーパーマーティンガルを構築し、蓄積された統計的安全性の証拠に基づいてルーティングしきい値を動的に調整する。
理論的には、常に有効な性能損失制御とB-PAC推論の効率を確立する。
実験により,B-PAC推論は計算オーバーヘッドを大幅に低減し,思考モデルの使用量を最大81.01\%削減し,ユーザ指定レベル以下の性能損失を抑えることができた。
関連論文リスト
- EntroCut: Entropy-Guided Adaptive Truncation for Efficient Chain-of-Thought Reasoning in Small-scale Large Reasoning Models [42.49934375597466]
大規模推論モデル(LRM)は、拡張連鎖生成による複雑な推論タスクに優れる。
初期の推論ステップにおけるモデル出力分布のエントロピーは、正しい推論と間違った推論とを確実に区別する。
本研究では,高信頼状態を特定することによって推論を動的に切り離す訓練自由度手法であるEntroCutを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:19:16Z) - PAC Reasoning: Controlling the Performance Loss for Efficient Reasoning [33.71268958080582]
大規模推論モデル(LRM)は複雑な問題解決タスクにおいて顕著な進歩を遂げた。
LRMは通常、展開中に高い計算コストに悩まされる。
本稿では,ユーザが指定した性能損失耐性の下での性能損失を制御するPAC推論を提案する。
論文 参考訳(メタデータ) (2025-10-10T08:33:47Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [43.91094438704087]
SelfBudgeterは、アダプティブな制御可能な推論フレームワークで、推論の前に予算推定メカニズムを組み込む。
本稿では,問題複雑度に応じて予算を動的に割り当てることにより,平均応答長61%の圧縮が得られることを示す。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Performance Control in Early Exiting to Deploy Large Models at the Same Cost of Smaller Ones [17.797465636040087]
Early Exiting(EE)は,計算資源をデータポイントに適応的に割り当てることによって推論を高速化する,有望な技術である。
私たちはまず、EEアプローチに関する新しい視点を示し、EEでデプロイされたより大きなモデルは、より小さなモデルよりも高いパフォーマンスを達成することができることを示した。
本稿では,データポイントの信頼度ではなく,サンプルの平均精度に基づいて精度閾値を決定する手法であるPCEE(Performance Control Early Exiting)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T18:54:32Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。