論文の概要: Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search
- arxiv url: http://arxiv.org/abs/2603.08877v1
- Date: Mon, 09 Mar 2026 19:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.801815
- Title: Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search
- Title(参考訳): 予算制約型エージェントLLM探索における設計決定の精度とコストへの影響の定量化
- Authors: Kyle McCleary, James Ghawaly,
- Abstract要約: Agentic Retrieval-Augmented Generation (RAG) システムは反復検索、計画プロンプト、検索を組み合わせるが、配置設定はツールコールと完了トークンに明確な予算を課している。
本研究では, 探索深度, 検索戦略, 完成予算が, 一定の制約下での精度とコストに与える影響について, 制御された測定結果を示す。
- 参考スコア(独自算出の注目度): 0.7243632426715941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic Retrieval-Augmented Generation (RAG) systems combine iterative search, planning prompts, and retrieval backends, but deployed settings impose explicit budgets on tool calls and completion tokens. We present a controlled measurement study of how search depth, retrieval strategy, and completion budget affect accuracy and cost under fixed constraints. Using Budget-Constrained Agentic Search (BCAS), a model-agnostic evaluation harness that surfaces remaining budget and gates tool use, we run comparisons across six LLMs and three question-answering benchmarks. Across models and datasets, accuracy improves with additional searches up to a small cap, hybrid lexical and dense retrieval with lightweight re-ranking produces the largest average gains in our ablation grid, and larger completion budgets are most helpful on HotpotQA-style synthesis. These results provide practical guidance for configuring budgeted agentic retrieval pipelines and are accompanied by reproducible prompts and evaluation settings.
- Abstract(参考訳): Agentic Retrieval-Augmented Generation (RAG) システムは反復検索、計画プロンプト、検索バックエンドを組み合わせるが、配置設定はツールコールと完了トークンに明確な予算を課している。
本研究では, 探索深度, 検索戦略, 完成予算が, 一定の制約下での精度とコストに与える影響について, 制御された測定結果を示す。
BCAS(Budget-Constrained Agentic Search)は、残予算とゲートツールの使用を探索するモデルに依存しない評価ハーネスであり、6つのLCMと3つの質問応答ベンチマークで比較を行う。
モデルとデータセット全体にわたって、より精度が向上し、小さな上限まで検索が増加し、より軽量な再ランク付きハイブリッド語彙と高密度検索が、当社のアブレーショングリッドで最大の平均ゲインを生み出し、HotpotQAスタイルの合成において、より大きな完成予算が最も有用である。
これらの結果は、予算化されたエージェント検索パイプラインを構成するための実用的なガイダンスを提供し、再現可能なプロンプトと評価設定を伴っている。
関連論文リスト
- Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration [14.88759517020146]
既存のRAGパイプラインは、大規模なエンティティマッチングに適用した場合、かなりの検索と生成オーバーヘッドを発生させる。
本稿では,CE-RAG4EMを導入する。CE-RAG4EMはコスト効率の高いRAGアーキテクチャで,ブロッキングベースのバッチ検索と生成による計算を削減できる。
論文 参考訳(メタデータ) (2026-02-05T14:33:00Z) - Predictive Scheduling for Efficient Inference-Time Reasoning in Large Language Models [6.002670452103349]
大規模言語モデル(LLM)は複雑な推論タスクにおいて最先端の精度を達成する。
しかし、クエリ毎に固定されたトークン予算を使用することで、簡単な入力の過剰計算とハードな入力の過小計算につながる。
プラグイン・アンド・プレイのフレームワークであるPredictive Schedulingを導入する。このフレームワークは軽量な予測器を事前実行し、各クエリの最適な推論の長さや難易度を全世代前に推定する。
論文 参考訳(メタデータ) (2026-02-01T13:58:23Z) - Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents [50.212640395029744]
深層探索パイプラインにおける推論予算の配分について検討する。
BrowseComp-Plusベンチマークを用いて、モデルスケール、推論の労力、深度の再検討、トークン総コストのトレードオフを分析する。
論文 参考訳(メタデータ) (2026-01-20T18:38:35Z) - Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data [57.996437077411315]
計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-16T07:09:30Z) - Distilling a Small Utility-Based Passage Selector to Enhance Retrieval-Augmented Generation [110.610512800947]
Retrieval-augmented Generation (RAG)は、取得した情報を組み込むことで、大規模言語モデル(LLM)を強化する。
RAGでは、重要度は実用性に移行し、正確な回答を生成するためのパスの有用性を考慮している。
提案手法は、ランク付けよりもユーティリティベースの選択に重点を置いており、固定しきい値を必要とせずに、特定のクエリに合わせた動的通過選択を可能にする。
本実験は, 実用性に基づく選択により, RAGの柔軟性とコスト効率が向上し, 計算コストが大幅に低減され, 応答品質が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T09:32:29Z) - PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.60370366013142]
制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。
具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
論文 参考訳(メタデータ) (2025-02-22T06:21:56Z) - New Additive OCBA Procedures for Robust Ranking and Selection [0.9558392439655016]
我々は,限られたサンプリング予算下での不正選択の可能性を最小限に抑えるため,新しい固定予算頑健なR&S手法を開発した。
そこで我々は,従来のOCBA法よりも頑健なOCBA法の優越性を検証するため,総合的な数値的研究を行った。
論文 参考訳(メタデータ) (2024-12-08T18:42:07Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Bayesian Optimization Over Iterative Learners with Structured Responses:
A Budget-aware Planning Approach [31.918476422203412]
本稿では,HPO 問題を解決するため,Budget-Aware Planning for Iterative Learningers (BAPI) と呼ばれる新しい手法を提案する。
反復学習者のための多様なHPOベンチマークの実験では、ほとんどの場合、BAPIは最先端のベースラインよりも優れた性能を示している。
論文 参考訳(メタデータ) (2022-06-25T18:44:06Z) - A Survey on Advancing the DBMS Query Optimizer: Cardinality Estimation,
Cost Model, and Plan Enumeration [17.75042918159419]
コストベースのアルゴリズムは、現在のほとんどのデータベースシステムで採用されている。
コストモデル、カーディナリティでは、オペレータによる数字の数は重要な役割を果たします。
基数推定の不正確さ、コストの誤差、および巨大な計画空間モデルにより、アルゴリズムは複雑なクエリに対して妥当な時間で最適な実行計画を見つけることができない。
論文 参考訳(メタデータ) (2021-01-05T13:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。