論文の概要: Inference-Time Budget Control for LLM Search Agents
- arxiv url: http://arxiv.org/abs/2605.05701v1
- Date: Thu, 07 May 2026 05:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.538906
- Title: Inference-Time Budget Control for LLM Search Agents
- Title(参考訳): LLM検索エージェントの予測時間予算制御
- Authors: Zhengru Fang, Senkang Forest Hu, Zhonghao Chang, Yu Guo, Yihang Tao, Hongyao Liu, Mengzhe Ruan, Jun Huang, Yuguang Fang,
- Abstract要約: マルチホップ質問応答(QA)の問題を2段階の推論時間予算制御として定式化する。
検索時には,各実行可能なアクションに対して,タスクレベルの値情報(VOI)スコアを割り当てる。
探索後、選択的エビデンスグラウンドのファイナライザは、軌道解答を洗練された候補と比較し、残差エラーが低リスクな解形式エラーであるように見える場合にのみ書き換える。
- 参考スコア(独自算出の注目度): 21.14983754890843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM search agents increasingly rely on tools at inference time, but their trajectories are often constrained by hard limits on both tool calls and generated tokens. Under such dual budgets, better answers require not only stronger models, but also explicit control over which search action should receive the next budget unit and when the accumulated evidence is sufficient to commit a final answer. We study this problem in multi-hop question answering (QA) and formulate it as two-stage inference-time budget control. At search time, our controller assigns each feasible action a task-level Value-of-Information (VOI) score, defined as an operational estimate of marginal task value per unit budget under the current search state and remaining dual budget, and uses this score to choose among retrieval, decomposition, and answer commitment. After search, a selective evidence-grounded finalizer compares the trajectory answer with a refined candidate and rewrites only when the residual error appears to be a low-risk answer-form error. Across four multi-hop QA benchmarks, three LLM backbones, and four budget levels, the method yields positive aggregate gains over four audited baselines under the same hard dual-budget protocol. Ablations show that search-time budget control, especially budget-dependent penalty, provides the main performance gain, while answer-time control helps mainly when the retrieval path is already adequate. These results suggest that inference-time budget control for LLM search agents should govern both how budget is spent during search and how the final answer is committed.
- Abstract(参考訳): LLM検索エージェントは、推論時にツールに依存することが多いが、ツール呼び出しと生成されたトークンの両方のハード制限によって、そのトラジェクトリは制約されることが多い。
このような二重予算の下では、より良い答えはより強力なモデルだけでなく、どの検索アクションが次の予算単位を受け取るべきかを明確に制御する必要がある。
この問題をマルチホップ質問応答(QA)を用いて検討し、2段階の推論時間予算制御として定式化する。
検索時には,各実行可能なアクションに対して,現在の検索状態下での単位予算当たりの限界タスク値の操作推定値として定義されたタスクレベル情報(VOI)スコアを割り当て,このスコアを用いて,検索,分解,回答のコミットメントを選択する。
探索後、選択的エビデンスグラウンドのファイナライザは、軌道解答を洗練された候補と比較し、残差エラーが低リスクな解形式エラーであるように見える場合にのみ書き換える。
4つのマルチホップQAベンチマーク、3つのLCMバックボーン、4つの予算レベルにおいて、同じハードなデュアル予算プロトコルの下で、4つの監査されたベースラインに対して正のアグリゲーションゲインが得られる。
アブレーションは,検索時の予算管理,特に予算に依存したペナルティが主なパフォーマンス向上をもたらすことを示している。
これらの結果から,LLM検索エージェントの予測時予算管理は,検索中の予算の支出方法と最終回答のコミット方法の両方を制御すべきであることが示唆された。
関連論文リスト
- AutoSearch: Adaptive Search Depth for Efficient Agentic RAG via Reinforcement Learning [52.305422887002656]
本稿では,自己生成中間回答を用いて各探索ステップを評価する強化学習フレームワークを提案する。
自己回答機構により、AutoSearchは最小限の検索深度を特定し、効率的な検索を促進する。
実験の結果、AutoSearchは検索品質を維持しながら過剰検索を軽減し、精度と効率のトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2026-04-19T09:05:48Z) - Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization [18.737087162461563]
テストタイムの計算スケーリングは、大規模言語モデルのパフォーマンスを向上させるための強力なレバーとなっている。
しかし、これらのテクニックを有限の推論予算の下で展開するには、現在のシステムがほとんど無視する決定が必要である。
我々はこれを制約付き最適化問題(平均計算予算の予測精度を最大化する)として定式化し、2段階のソルベ・テン・ラーンパイプラインで解いた。
論文 参考訳(メタデータ) (2026-04-16T10:39:22Z) - Not All Turns Are Equally Hard: Adaptive Thinking Budgets For Efficient Multi-Turn Reasoning [14.194667934432443]
逐次計算割当問題としてマルチターン推論を定式化し,多目的マルコフ決定過程としてモデル化する。
我々は,グローバル・パー・プロブレム・トークン制約を尊重しつつ,タスクの精度を最大化する予算配分政策であるターン・アダプティブ・バッジを提案する。
我々は,すべてのサブクエストの計画が利用可能であるシステムに対して,会話履歴と過去および将来のサブクエストに基づいてトークンを予算化する予算配分政策であるTAB All-SubQを提案し,ベースライン上で最大40%のトークンを節約する。
論文 参考訳(メタデータ) (2026-04-06T20:48:51Z) - Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search [0.7243632426715941]
Agentic Retrieval-Augmented Generation (RAG) システムは反復検索、計画プロンプト、検索を組み合わせるが、配置設定はツールコールと完了トークンに明確な予算を課している。
本研究では, 探索深度, 検索戦略, 完成予算が, 一定の制約下での精度とコストに与える影響について, 制御された測定結果を示す。
論文 参考訳(メタデータ) (2026-03-09T19:42:21Z) - Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory [56.0946692457838]
BudgetMemは、明示的でクエリ対応のパフォーマンスコスト管理のためのランタイムエージェントメモリフレームワークである。
軽量ルータは、タスク性能とメモリ構築コストのバランスをとるために、モジュール間の予算層ルーティングを実行する。
LoCoMo、LongMemEval、HotpotQAの他、BudgetMemはパフォーマンスが優先されるときに、強力なベースラインを超える。
論文 参考訳(メタデータ) (2026-02-05T18:57:09Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Aligning LLMs on a Budget: Inference-Time Alignment with Heuristic Reward Models [23.37504394417425]
HIA(Heuristic-Guided Inference-time Alignment)は,軽量プロンプトを用いたチューニング不要でブラックボックス互換のアプローチである。
HIAは1つまたは2つの応答クエリの少ない低推論予算下で有効であることが判明した。
論文 参考訳(メタデータ) (2025-08-07T08:54:27Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。