論文の概要: Compute Allocation for Reasoning-Intensive Retrieval Agents
- arxiv url: http://arxiv.org/abs/2603.14635v1
- Date: Sun, 15 Mar 2026 22:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.929899
- Title: Compute Allocation for Reasoning-Intensive Retrieval Agents
- Title(参考訳): Reasoning-Intensive Retrieval Agent のためのCompute Allocation
- Authors: Sreeja Apparaju, Nilesh Gupta,
- Abstract要約: LLM拡張パイプラインは、クエリ拡張と候補の再ランクによってこの問題に対処するが、かなりの推論コストが伴う。
モデルキャパシティ、推論時思考、クエリ拡張と再ランクステージの深度が異なります。
推論時の思考は、どちらの段階でも最小限の改善をもたらす。
- 参考スコア(独自算出の注目度): 1.959463958142142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agents operate over long horizons, their memory stores grow continuously, making retrieval critical to accessing relevant information. Many agent queries require reasoning-intensive retrieval, where the connection between query and relevant documents is implicit and requires inference to bridge. LLM-augmented pipelines address this through query expansion and candidate re-ranking, but introduce significant inference costs. We study computation allocation in reasoning-intensive retrieval pipelines using the BRIGHT benchmark and Gemini 2.5 model family. We vary model capacity, inference-time thinking, and re-ranking depth across query expansion and re-ranking stages. We find that re-ranking benefits substantially from stronger models (+7.5 NDCG@10) and deeper candidate pools (+21% from $k$=10 to 100), while query expansion shows diminishing returns beyond lightweight models (+1.1 NDCG@10 from weak to strong). Inference-time thinking provides minimal improvement at either stage. These results suggest that compute should be concentrated on re-ranking rather than distributed uniformly across pipeline stages.
- Abstract(参考訳): エージェントが長い地平線上で操作するにつれて、そのメモリストアは継続的に成長し、関連する情報にアクセスするための検索が重要になる。
多くのエージェントクエリは推論集約的な検索を必要とし、クエリと関連するドキュメント間の接続は暗黙的であり、ブリッジの推論を必要とする。
LLM拡張パイプラインは、クエリ拡張と候補の再ランクによってこの問題に対処するが、かなりの推論コストが伴う。
BRIGHTベンチマークとGemini 2.5モデルファミリを用いた推論集約型探索パイプラインの計算割当について検討した。
モデルのキャパシティ、推論時思考、クエリ拡張と再ランクステージの深度が異なります。
より強力なモデル (+7.5 NDCG@10) とより深い候補プール (+21% が$k$=10から100) から、クエリ拡張によって軽量モデル (+1.1 NDCG@10 が弱いものから強いもの) 以上のリターンが減少することを示している。
推論時の思考は、どちらの段階でも最小限の改善をもたらす。
これらの結果は、パイプラインステージ全体にわたって均一に分散するのではなく、計算が再ランク付けに集中すべきであることを示唆している。
関連論文リスト
- Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents [50.212640395029744]
深層探索パイプラインにおける推論予算の配分について検討する。
BrowseComp-Plusベンチマークを用いて、モデルスケール、推論の労力、深度の再検討、トークン総コストのトレードオフを分析する。
論文 参考訳(メタデータ) (2026-01-20T18:38:35Z) - Enhancing Retrieval-Augmented Generation with Two-Stage Retrieval: FlashRank Reranking and Query Expansion [0.0]
RAGは、大きな言語モデル(LLM)とレトリバーを結合して、外部のエビデンスで生成された応答を接地する。
LLM駆動型クエリ拡張を統合して候補リコールを改善する2段階検索パイプラインを提案する。
FlashRankは、トークン予算の下で最適な証拠のサブセットを動的に選択する高速な限界効用リランカである。
論文 参考訳(メタデータ) (2025-10-17T15:08:17Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Hybrid Deep Searcher: Integrating Parallel and Sequential Search Reasoning [57.78245296980122]
本稿では,自然質問から自動生成されるデータセットであるHDS-QA(Hybrid Deep Search QA)を紹介する。
並列化可能な独立サブクエリ(同時に実行可能)と逐次依存サブクエリ(ステップバイステップの解決を必要とする)を組み合わせたハイブリッドホップ質問を含む。
モデルの名称はHybridDeepSearcherで、複数のベンチマークで最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2025-08-26T15:15:17Z) - FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。
監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文 参考訳(メタデータ) (2025-07-10T11:02:13Z) - ReasonIR: Training Retrievers for Reasoning Tasks [139.54343970560103]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。
新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文 参考訳(メタデータ) (2025-04-29T09:49:28Z) - Pseudo Relevance Feedback is Enough to Close the Gap Between Small and Large Dense Retrieval Models [29.934928091542375]
大規模言語モデル (LLM) のバックボーンに高密度レトリバーを拡張させることは, 検索効率を向上させる主要な戦略である。
本稿では,機能ベースの擬似関連フィードバック(PRF)フレームワークであるPromptPRFを紹介する。
論文 参考訳(メタデータ) (2025-03-19T04:30:20Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。