論文の概要: When Independent Sampling Outperforms Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2605.08478v1
- Date: Fri, 08 May 2026 20:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.677043
- Title: When Independent Sampling Outperforms Agentic Reasoning
- Title(参考訳): 独立サンプリングによるエージェント推論の性能向上
- Authors: Yihe Dong, Boris Shigida,
- Abstract要約: 固定予算下での競合プログラミングのための推論時間計算の割り当てについて検討する。
モデル呼び出しのコストと回数の両方の関数として,エージェントベースの推論と反復的な独立サンプリング(k-shot)を比較した。
- 参考スコア(独自算出の注目度): 4.226475360842309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to allocate inference-time compute for competitive programming under fixed budgets. Evaluating 216 Codeforces problems across Divisions 1-3, we compare agent-based reasoning with repeated independent sampling (k-shot) as a function of both cost and number of model calls. Across models and difficulty levels, k-shot consistently achieves a better accuracy-cost and accuracy-query tradeoff. This gap persists despite prompt caching in agent frameworks, indicating lower per-call effectiveness. Our results show that, for self-contained algorithmic tasks, independent exploration can outperform deeper agentic reasoning under realistic resource constraints. We also provide a budget-allocation analysis when the inference budget is fixed, and prove that a cost-optimal solver minimizes the principled metric log failure likelihood per dollar.
- Abstract(参考訳): 固定予算下での競合プログラミングのための推論時間計算の割り当てについて検討する。
モデル呼び出しのコストと回数の両方の関数として,エージェントベースの推論と反復的な独立サンプリング (k-shot) を比較した。
モデルと難易度の範囲で、kショットは、より精度の高い精度と精度の高いクエリのトレードオフを一貫して達成する。
このギャップは、エージェントフレームワークの迅速なキャッシュにもかかわらず持続し、呼び出し毎の有効性が低いことを示している。
本研究は,自己完結型アルゴリズムタスクにおいて,現実的な資源制約下でのエージェント推論よりも優れた独立探索が可能であることを示す。
また,推定予算が固定された場合の予算配分分析を行い,コスト最適解法が1ドル当たりの基準ログ故障確率を最小化することを示す。
関連論文リスト
- Avoiding Overthinking and Underthinking: Curriculum-Aware Budget Scheduling for LLMs [1.7499351967216341]
BCAE(Budget-Adaptive Curriculum Reasoning)は、推論品質とトークン効率を共同で最適化する統合フレームワークである。
BCAEには、Emphbudget-conditioned unified policy、Emphcurriculum-aware budget scheduler、Emphtruncation-aware dense reward mechanismが含まれる。
論文 参考訳(メタデータ) (2026-03-29T18:31:09Z) - Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents [40.18150559561834]
Budget-Aware Value Tree (BAVT) は、動的検索ツリーとしてマルチホップ推論をモデル化するトレーニングフリーの推論時間フレームワークである。
BAVTは一貫して並列サンプリングベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-13T04:10:27Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - Labels or Preferences? Budget-Constrained Learning with Human Judgments over AI-Generated Outputs [17.028710603629026]
我々は,AIにおいて,基幹ラベルとペアの選好の間で,固定されたアノテーション予算を最適に割り当てる方法について述べる。
本稿では,データ取得戦略を最適に学習する新しいロバストネス手法であるPreference-Calibrated Active Learning (PCAL)を紹介する。
この研究は、現代のAIにおける予算制約学習に対する原則的かつ統計的に効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-19T23:23:29Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Frugal inference for control [2.20480252274709]
人工知能の進歩の鍵となる課題は、外部の動きとリソース利用の適切なバランスを達成することである。
我々は,POMDPフレームワークのバージョンを開発し,推論によって得られた情報を,タスクのパフォーマンスや動作の労力とともに最適化する必要があるリソースとして扱う。
この研究は、脳と機械の両方が不確実性の下で効果的だが資源効率のよい制御に使用できる新しいタイプの有理計算の基礎を提供する。
論文 参考訳(メタデータ) (2024-06-20T15:50:38Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。