論文の概要: Conditional Performance Guarantee for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.22790v1
- Date: Fri, 30 Jan 2026 10:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.376601
- Title: Conditional Performance Guarantee for Large Reasoning Models
- Title(参考訳): 大規模共振モデルにおける条件付き性能保証
- Authors: Jianguo Huang, Hao Zeng, Bingyi Jing, Hongxin Wei, Bo An,
- Abstract要約: 未知のグルーピングに対するグループPAC(G-PAC)とクラスタ化PAC(C-PAC)の推論を示す。
G-PACとC-PACは、実質的な計算貯蓄を維持しながら、グループ条件のリスク制御を成功させる。
- 参考スコア(独自算出の注目度): 33.71268958080582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models have shown strong performance through extended chain-of-thought reasoning, yet their computational cost remains significant. Probably approximately correct (PAC) reasoning provides statistical guarantees for efficient reasoning by adaptively switching between thinking and non-thinking models, but the guarantee holds only in the marginal case and does not provide exact conditional coverage. We propose G-PAC reasoning, a practical framework that provides PAC-style guarantees at the group level by partitioning the input space. We develop two instantiations: Group PAC (G-PAC) reasoning for known group structures and Clustered PAC (C-PAC) reasoning for unknown groupings. We prove that both G-PAC and C-PAC achieve group-conditional risk control, and that grouping can strictly improve efficiency over marginal PAC reasoning in heterogeneous settings. Our experiments on diverse reasoning benchmarks demonstrate that G-PAC and C-PAC successfully achieve group-conditional risk control while maintaining substantial computational savings.
- Abstract(参考訳): 大規模な推論モデルは、チェーン・オブ・ソート・推論を拡張して高い性能を示したが、その計算コストは依然として大きい。
おそらく大まかに正しい(PAC)推論は、思考と非思考のモデルを適応的に切り替えることによる効率的な推論の統計的保証を提供するが、その保証は限界ケースでのみ成り立ち、正確な条件付きカバレッジを提供しない。
G-PAC推論(G-PAC reasoning)は、入力空間を分割することで、グループレベルでPACスタイルの保証を提供する実践的なフレームワークである。
我々は,グループPAC (G-PAC) とクラスタ型PAC (C-PAC) の2つの推定法を開発した。
我々は,G-PACとC-PACの両方がグループ条件のリスク制御を実現し,グループ化が異種環境下でのPAC推論よりも厳密に効率を向上できることを証明した。
G-PAC と C-PAC はグループ条件のリスク制御に成功し,計算量を大幅に削減できることを示した。
関連論文リスト
- Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。
本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。
理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文 参考訳(メタデータ) (2025-12-04T08:21:33Z) - A note on the impossibility of conditional PAC-efficient reasoning in large language models [2.9174099783289296]
本研究では, 条件付きPAC効率保証は, 分散フリー環境では不可能であることを示す。
特に、非原子入力空間の場合、条件付きPAC効率を達成するアルゴリズムは自明でなければならない。
論文 参考訳(メタデータ) (2025-11-25T17:08:08Z) - C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning [54.705168477975384]
推論モデル学習のためのグループシーケンスポリシーグラディエント(GSPG)フレームワーク。
C$2$GSPGは、自信過剰を抑えながら推論性能を同時に向上させる。
論文 参考訳(メタデータ) (2025-09-27T05:24:51Z) - Breaking the Gaussian Barrier: Residual-PAC Privacy for Automatic Privatization [27.430637970345433]
PACプライバシーアルゴリズムによって得られる上限は、摂動機構の出力が独立雑音を伴うガウス的である場合にのみ厳密であることを示す。
本稿では,逆推定後に残るプライバシを定量化するf-divergenceベースの尺度であるResidual-PAC(R-PAC)プライバシーを紹介する。
提案手法は,任意のデータ分布に対する効率的なプライバシ予算利用を実現し,複数のメカニズムがデータセットにアクセスすると自然に構成する。
論文 参考訳(メタデータ) (2025-06-06T20:52:47Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Towards Efficient Contrastive PAC Learning [6.209600119671225]
我々はPAC学習の枠組みの下で対照的な学習について研究する。
本稿では,線形表現の基本概念の対照的な学習について考察する。
我々は,Rademacherの複雑性に基づいた保証を確立し,それとPACの保証を,ある対照的な大マルジン条件下で接続する。
論文 参考訳(メタデータ) (2025-02-21T21:51:01Z) - PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental
Comparison [38.76324445090305]
PAC-Bayesは最近、厳密な性能保証を伴う原則付き学習アルゴリズムを導出できる効果的な理論として再浮上した。
医療、金融、自然科学における多くの意思決定問題は、盗賊問題としてモデル化できる。
本調査では,バンドイト問題に対するPAC-Bayes境界の概説と,これらの境界の実験的比較について述べる。
論文 参考訳(メタデータ) (2022-11-29T11:34:35Z) - Robust Optimization for Fairness with Noisy Protected Groups [85.13255550021495]
ノイズが保護されたグループラベルに頼った結果について検討した。
頑健な最適化を用いた2つの新しいアプローチを提案する。
頑健なアプローチは、単純アプローチよりも真のグループ公平性を保証することが示される。
論文 参考訳(メタデータ) (2020-02-21T14:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。