論文の概要: PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency
- arxiv url: http://arxiv.org/abs/2602.16745v1
- Date: Wed, 18 Feb 2026 03:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.265757
- Title: PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency
- Title(参考訳): PETS: 効率的なテスト時間自己整合性のための最適軌道配置に向けた原則的フレームワーク
- Authors: Zhangyi Liu, Huaizhi Qu, Xiaowei Yin, He Sun, Yanjun Han, Tianlong Chen, Zhun Deng,
- Abstract要約: PETS (Principled and Efficient Test-TimeSelf-Consistency) を導入する。
我々のアプローチの中心は自己整合性率であり、これは無限予算の多数決と一致して定義される新しい尺度である。
PETSは両方の設定で完全自己整合性を実現し、サンプリング予算を最大75%削減する。
- 参考スコア(独自算出の注目度): 46.02573924956955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling can improve model performance by aggregating stochastic reasoning trajectories. However, achieving sample-efficient test-time self-consistency under a limited budget remains an open challenge. We introduce PETS (Principled and Efficient Test-TimeSelf-Consistency), which initiates a principled study of trajectory allocation through an optimization framework. Central to our approach is the self-consistency rate, a new measure defined as agreement with the infinite-budget majority vote. This formulation makes sample-efficient test-time allocation theoretically grounded and amenable to rigorous analysis. We study both offline and online settings. In the offline regime, where all questions are known in advance, we connect trajectory allocation to crowdsourcing, a classic and well-developed area, by modeling reasoning traces as workers. This perspective allows us to leverage rich existing theory, yielding theoretical guarantees and an efficient majority-voting-based allocation algorithm. In the online streaming regime, where questions arrive sequentially and allocations must be made on the fly, we propose a novel method inspired by the offline framework. Our approach adapts budgets to question difficulty while preserving strong theoretical guarantees and computational efficiency. Experiments show that PETS consistently outperforms uniform allocation. On GPQA, PETS achieves perfect self-consistency in both settings while reducing the sampling budget by up to 75% (offline) and 55% (online) relative to uniform allocation. Code is available at https://github.com/ZDCSlab/PETS.
- Abstract(参考訳): テストタイムスケーリングは確率的推論軌道を集約することでモデル性能を向上させることができる。
しかし、限られた予算の下でサンプル効率テストタイムの自己整合性を達成することは、未解決の課題である。
PETS (Principled and Efficient Test-TimeSelf-Consistency) を導入する。
我々のアプローチの中心は自己整合性率であり、これは無限予算の多数決と一致して定義される新しい尺度である。
この定式化により、サンプル効率の試験時間割当は理論的に基礎付けられ、厳密な分析が可能である。
オフライン設定とオンライン設定の両方を研究します。
すべての質問が事前に分かっているオフライン体制では、労働者としての推論トレースをモデル化することで、軌道割当を古典的で発達した分野であるクラウドソーシングに結び付ける。
この観点から、我々は豊富な既存理論を活用でき、理論的な保証と効率的な多数決に基づく割当てアルゴリズムが得られる。
オンラインストリーミングでは,質問が連続して届き,アロケーションをオンザフライで行う必要がある。
提案手法は, 高い理論的保証と計算効率を維持しつつ, 難易度を問う予算に適応する。
実験の結果、PETSは均一なアロケーションよりも一貫して優れていた。
GPQAでは、PETSは両方の設定において完全な自己整合性を達成し、サンプリング予算を均一な割り当てに対して75%(オフライン)と55%(オンライン)に削減する。
コードはhttps://github.com/ZDCSlab/PETSで入手できる。
関連論文リスト
- On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。
本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。
理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文 参考訳(メタデータ) (2025-12-04T08:21:33Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Reward-Shifted Speculative Sampling Is An Efficient Test-Time Weak-to-Strong Aligner [24.152878302325508]
提案手法では,対象モデルが変わらず,ヒトの嗜好に沿うような,報酬シフト型投機的サンプリング(SSS)アルゴリズムを導入する。
本アルゴリズムは, 試験時間低強度アライメント実験において, 推定コストを著しく低減し, 優れた金報酬スコアを得る。
論文 参考訳(メタデータ) (2025-08-20T20:10:56Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。