論文の概要: Natural Language Query to Configuration for Retrieval Agents
- arxiv url: http://arxiv.org/abs/2605.27361v1
- Date: Tue, 26 May 2026 17:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.590096
- Title: Natural Language Query to Configuration for Retrieval Agents
- Title(参考訳): 検索エージェントの構成に対する自然言語クエリ
- Authors: Melissa Z. Pan, Negar Arabzadeh, Mathew Jacob, Fiodar Kazhamiaka, Esha Choukse, Matei Zaharia,
- Abstract要約: We propose *BRANE*, which using LLM to convert each query into workload-specific characteristics。
推論時に**BRANE**は、コストによって罰せられる予測正しさを最大化する構成を選択する。
MuSiQue、BrowseComp-Plus、FinancialBenchの他、**BRANE*は、最高の固定構成の精度を最大89%のコストで一致させる。
- 参考スコア(独自算出の注目度): 26.632892379437934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern retrieval agents expose many configuration choices -- LLM, retriever, number of documents, number of hops, and synthesis strategy -- each shaping both answer quality and serving cost. Today, these pipelines are typically hand-tuned once per workload, leaving substantial per-query optimization untapped. We formulate the problem: given a natural-language query and either an accuracy or a budget target, select from a predefined pipeline catalog the configuration that minimizes cost or maximizes accuracy at inference time. We propose **BRANE**, which uses an LLM to convert each query into workload-specific characteristics, then trains a lightweight per-configuration predictor that estimates whether the pipeline will answer the query correctly. At inference time, **BRANE** selects the configuration that maximizes predicted correctness penalized by cost, exposing a tunable cost-quality tradeoff without retraining. Across MuSiQue, BrowseComp-Plus, and FinanceBench, **BRANE** consistently pushes the cost-quality Pareto frontier, matches the best fixed configuration's accuracy at up to 89% lower cost, and outperforms LLM-routing, rule-based, and fine-tuned Qwen3-4B baselines. These results show that per-query configuration of the full retrieval pipeline is a practical alternative to static workload-level tuning.
- Abstract(参考訳): 現代の検索エージェントは、LLM、レトリバー、ドキュメント数、ホップ数、合成戦略など、多くの構成選択を公開しており、それぞれが回答の品質とサービスコストの両方を形作る。
今日では、これらのパイプラインは通常、ワークロード毎に1回手動でチューニングされ、クエリごとの大幅な最適化は未解決のままである。
自然言語クエリと精度または予算目標が与えられた場合、事前に定義されたパイプラインカタログからコストを最小化し、推論時に精度を最大化する構成を選択する。
提案する**BRANE**は,LLMを用いて各クエリをワークロード固有の特性に変換し,パイプラインがクエリに正しく応答するかどうかを推定する軽量な設定ごとの予測器を訓練する。
推論時に**BRANE**は、コストによって罰せられる予測正しさを最大化する構成を選択し、調整可能なコスト品質のトレードオフを再トレーニングせずに露呈する。
MuSiQue, BrowseComp-Plus, FinanceBench, **BRANE**は、コスト品質のParetoフロンティアを一貫して押し上げ、最高の固定構成の精度を最大89%の低コストで一致させ、LLMルーティング、ルールベース、微調整のQwen3-4Bベースラインを上回っている。
これらの結果から,全検索パイプラインのクエリ毎の構成が静的なワークロードレベルのチューニングの代替となることが示唆された。
関連論文リスト
- PRISM: Pareto-Efficient Retrieval over Intent-Aware Structured Memory for Long-Horizon Agents [9.504077408241544]
ロングホライゾン言語エージェントは、どの固定されたコンテキストウィンドウよりもはるかに早く会話履歴を蓄積する。
PRISMは、長期記憶を共同検索・圧縮問題として扱う訓練不要な検索サイドフレームワークである。
論文 参考訳(メタデータ) (2026-05-12T15:28:30Z) - Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection [57.3886742625188]
Pre-Routeは、応答前に構造化推論を実行するプロアクティブなルーティングフレームワークである。
本研究は, (i) LLMは, ガイドラインを確実に適用可能な遅延ルーティング能力を有すること, (ii) 線形プローブにより, 表現空間における最適ルーティングの分離性を高めること, (iii) 蒸留により, この推論構造を, 軽量展開のためのより小さなモデルに伝達すること,の3つの重要な知見を示す。
論文 参考訳(メタデータ) (2026-05-11T09:10:55Z) - Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints [18.52522897906341]
大規模言語モデル(LLM)へのクエリルーティングの問題について検討する。
本稿では,各バッチの割り当てを協調的に最適化する,バッチレベルのリソース対応ルーティングフレームワークを提案する。
2つのマルチタスクベンチマークの実験では、非ロバストなベンチマークでは精度が1-14%向上している。
論文 参考訳(メタデータ) (2026-03-25T22:24:11Z) - Automatic Configuration of LLM Post-Training Pipelines [4.833783769369]
AutoPipeは、LCMポストトレーニングの構成選択のための予算対応フレームワークである。
オフラインでAutoPipeは、データセットで条件付けられた学習からランクまでのサロゲートを、過去の実行から学習する。
オンラインでは、AutoPipeはオフラインガイダンスを使用してベイジアン最適化とデータセット固有の偏差をモデル化する。
論文 参考訳(メタデータ) (2026-03-19T11:26:56Z) - Adaptive Dependency-aware Prompt Optimization Framework for Multi-Step LLM Pipeline [9.013236765328301]
我々は,多段階LLMパイプラインのための適応依存型プロンプト最適化フレームワークであるADOPTを提案する。
ADOPTは、各LCMステップと最終タスク結果の依存関係を明示的にモデル化し、正確なテキスト勾配推定を可能にする。
実世界のデータセットと多様なパイプライン構造の実験は、ADOPTが効果的で堅牢であることを示している。
論文 参考訳(メタデータ) (2025-12-31T15:46:37Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。