論文の概要: Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents
- arxiv url: http://arxiv.org/abs/2601.14224v1
- Date: Tue, 20 Jan 2026 18:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.448758
- Title: Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents
- Title(参考訳): Rerank before you Reason: ディープ検索エージェントにおける効果的なトークンコストによるトレードオフのランク付け分析
- Authors: Sahel Sharifymoghaddam, Jimmy Lin,
- Abstract要約: 深層探索パイプラインにおける推論予算の配分について検討する。
BrowseComp-Plusベンチマークを用いて、モデルスケール、推論の労力、深度の再検討、トークン総コストのトレードオフを分析する。
- 参考スコア(独自算出の注目度): 50.212640395029744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research agents rely on iterative retrieval and reasoning to answer complex queries, but scaling test-time computation raises significant efficiency concerns. We study how to allocate reasoning budget in deep search pipelines, focusing on the role of listwise reranking. Using the BrowseComp-Plus benchmark, we analyze tradeoffs between model scale, reasoning effort, reranking depth, and total token cost via a novel effective token cost (ETC) metric. Our results show that reranking consistently improves retrieval and end-to-end accuracy, and that moderate reranking often yields larger gains than increasing search-time reasoning, achieving comparable accuracy at substantially lower cost. All our code is available at https://github.com/texttron/BrowseComp-Plus.git
- Abstract(参考訳): ディープリサーチエージェントは、複雑なクエリに答えるために反復的な検索と推論に頼るが、テスト時間計算のスケーリングは、大きな効率上の懸念を引き起こす。
深層探索パイプラインにおける推論予算の配分について検討し,リストワイド・リグレードの役割に着目した。
BrowseComp-Plusベンチマークを用いて、新しい有効トークンコスト(ETC)メトリックを用いて、モデルスケール、推論の取り組み、深度の再検討、トークン総コストのトレードオフを分析する。
以上の結果から,再ランク付けは検索精度とエンドツーエンドの精度を一貫して向上し,検索時間の推理を増大させるよりも高いゲインを得ることが多く,低コストで同等の精度を達成できることが示唆された。
私たちのコードは、https://github.com/texttron/BrowseComp-Plus.gitで利用可能です。
関連論文リスト
- TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Your Dense Retriever is Secretly an Expeditious Reasoner [12.123445960145693]
本稿では,ハイブリッドクエリ書き換えフレームワークであるAdaptive Query Reasoning (AdaQR)を提案する。
AdaQRは推論コストを28%削減し、保存または検索パフォーマンスを7%向上させる。
論文 参考訳(メタデータ) (2025-09-27T16:50:03Z) - Retrieval-of-Thought: Efficient Reasoning via Reusing Thoughts [6.845529733164892]
本稿では, 事前推論を構成可能な思考として再利用するRetrieval-of-Thought(RoT)を提案する。
RoTは、シーケンシャルかつセマンティックなエッジを持つ思考グラフにステップを整理し、高速な検索と柔軟な再結合を可能にする。
複数のモデルを用いた推論ベンチマークでRoTを評価し,精度,トークン使用率,レイテンシ,メモリオーバーヘッドを測定した。
論文 参考訳(メタデータ) (2025-09-26T01:17:35Z) - FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。
監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文 参考訳(メタデータ) (2025-07-10T11:02:13Z) - A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings [60.48717743667377]
A*-Thoughtは、最も本質的な思考を識別し、分離するために設計された効率的なツリー検索ベースの統合フレームワークである。
LRMの推論過程を探索木として定式化し、各ノードは巨大な推論空間における推論スパンを表す。
低予算でQwQ-32Bを2.39$times$で改善し、高予算で出力トークンの長さを50%近く削減できる。
論文 参考訳(メタデータ) (2025-05-30T12:58:34Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。