論文の概要: CAPS: Cascaded Adaptive Pairwise Selection for Efficient Parallel Reasoning
- arxiv url: http://arxiv.org/abs/2605.15513v1
- Date: Fri, 15 May 2026 01:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.139325
- Title: CAPS: Cascaded Adaptive Pairwise Selection for Efficient Parallel Reasoning
- Title(参考訳): CAPS : 効果的な並列推論のための適応的ペアワイズ選択法
- Authors: Fangzhou Lin, Shuo Xing, Peiran Li, Siyuan Yang, Qianwen Ge, Kazunori Yamada, Ziming Zhang, Haichong Zhang, Zhengzhong Tu,
- Abstract要約: CAPSは2つの軸に沿って不均一に検証器を割り当てる推論のみのフレームワークである。
CAPSは、コードに対する検証対象の予算の25.4%を使用しながら、20組中14組で先頭のペアワイズ検証器を上回っている。
- 参考スコア(独自算出の注目度): 24.596125996494717
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parallel reasoning, where a generator samples many candidate solutions and an aggregator selects the best, is one of the most effective forms of test-time scaling in large language models, and pairwise self-verification has become its strongest aggregation primitive. Yet pairwise verification carries a heavy cost: each judgment reads two complete solutions in full, and existing methods perform tens of such judgments per problem regardless of whether the comparison is informative. We introduce CAPS (Cascaded Adaptive Pairwise Selection), an inference-only framework that allocates verifier compute non-uniformly along two orthogonal axes: an evidence axis that adapts how much of each candidate the judge sees, and a distribution axis that adapts how comparisons are spread across the pool. CAPS instantiates these into a four-stage cascade with an optional rescue subroutine, and admits a closed-form verifier-token cost in which the per-candidate marginal cost is roughly halved relative to uniform full-evidence schedules. On four self-verifying models (Qwen3-14B, GPT-OSS-20B, Qwen3-4B-Instruct/Thinking) and five reasoning benchmarks spanning code (LiveCodeBench-v5/v6, CodeContests) and math (AIME 2025, HMMT 2025), CAPS outperforms the leading pairwise verifier on 14 of 20 suites while using 25.4% of its verifier-token budget on code, and outperforms pointwise self-verification on all 20. The trade-off suites admit an interpretable diagnostic in terms of the verifier's accuracy at partial versus full evidence, providing a concrete pre-deployment check for cascade suitability.
- Abstract(参考訳): 並列推論では、ジェネレータが多くの候補解をサンプリングし、アグリゲータがベストを選択するが、大きな言語モデルにおいてテスト時間スケーリングの最も効果的な形式の一つであり、ペアの自己検証が最強のアグリゲーションプリミティブとなっている。
それぞれの判断は2つの完全な解を全て読み上げ、既存の方法は、比較が有益かどうかに関わらず、問題ごとに数十の判定を行う。
本稿では,CAPS(Cascaded Adaptive Pairwise Selection)という,2つの直交軸に沿って不均一に検証器計算を割り当てる推論のみのフレームワークを紹介する。
CAPSはこれらを4段階のカスケードにインスタンス化し、任意の救助サブルーチンを選択可能とし、候補ごとの限界コストが、統一された完全証拠スケジュールと比較してほぼ半額となるクローズドフォームの検証トーケンコストを認める。
4つの自己検証モデル (Qwen3-14B, GPT-OSS-20B, Qwen3-4B-Instruct/Thinking) とコードにまたがる5つの推論ベンチマーク (LiveCodeBench-v5/v6, CodeContests) と数学 (AIME 2025, HMMT 2025) では、CAPSはコードに対する検証対象予算の25.4%を使用しながら、20スイート中14のペアワイド検証よりも優れており、コード上ではポイントワイドな自己検証よりも優れています。
トレードオフスイートは、検証者の正当性を部分的かつ完全な証拠として解釈可能な診断を認め、カスケード適合性に関する具体的な事前デプロイチェックを提供する。
関連論文リスト
- Pause and Reflect: Conformal Aggregation for Chain-of-Thought Reasoning [8.024041325202612]
自己整合性を考慮した思考の連鎖(CoT)推論は、複数のサンプル推論パスを集約することで性能を向上させる。
集約不確実性に直接対処するCoT推論のコンフォメーション手順を導入する。
提案手法は,多数決を推理経路よりも重み付けしたスコアアグリゲーションに置き換え,共形リスク制御を用いた棄権規則を校正する。
論文 参考訳(メタデータ) (2026-05-13T20:33:59Z) - Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference [27.59556627479635]
Calibrated Speculative Decodingは、標準検証によって破棄された有効なトークンを復元する。
Online Correction Memory は歴史的拒絶を集約し、繰り返し発散パターンを救助候補者として提案する。
Semantic Consistency Gatingは、正確なトークンマッチングの代わりに確率比を用いて候補許容性を検証する。
論文 参考訳(メタデータ) (2026-04-15T09:01:54Z) - $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Adaptive Test-Time Compute Allocation via Learned Heuristics over Categorical Structure [1.8055130471307603]
テスト時間計算は、大規模言語モデル(LLM)推論の進歩の原動力となっている。
我々は,検証作業が中間状態にまたがってどのように配置されるべきか,検証コストに制限のある環境下での推論について検討する。
本研究では, (i) 構造化された移動インタフェース上での確定可能性ゲーティング, (ii) 学習された状態距離と残差スコアのハイブリッドを用いた事前検証ランキング, (iii) 局所的不確実性に基づく検証呼び出しの適応的アロケーションを組み合わせた状態レベルの選択的検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-03T19:57:53Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models [38.784951111677856]
大規模言語モデル(LLM)は、様々な下流タスクにまたがる顕著な推論能力を示す。
その自己回帰的な性質は、相当なレイテンシ推論をもたらし、リアルタイムアプリケーションに課題を提起する。
マルチヘッドドラフトを利用して投機的サンプリングを拡張するSyntactic and Semantic Coherenceフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-17T03:38:19Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。