論文の概要: Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
- arxiv url: http://arxiv.org/abs/2605.05242v1
- Date: Sun, 03 May 2026 19:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.303133
- Title: Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction
- Title(参考訳): 意味的類似性を超えて:直接コーパスインタラクションによるエージェント検索の検索再考
- Authors: Zhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang,
- Abstract要約: エージェントが直接、汎用端末ツールを用いて、生コーパスを直接検索する直接コーパス間相互作用(DCI)について検討する。
このアプローチではオフラインインデックスを必要とせず、ローカルコーパスの進化に自然に適応する。
IRベンチマークとエンドツーエンドのエージェント検索タスク全体にわたって、この単純なセットアップは、強いスパース、密度、リランクベースラインよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 127.64173950476702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern retrieval systems, whether lexical or semantic, expose a corpus through a fixed similarity interface that compresses access into a single top-k retrieval step before reasoning. This abstraction is efficient, but for agentic search, it becomes a bottleneck: exact lexical constraints, sparse clue conjunctions, local context checks, and multi-step hypothesis refinement are difficult to implement by calling a conventional off-the-shelf retriever, and evidence filtered out early cannot be recovered by stronger downstream reasoning. Agentic tasks further exacerbate this limitation because they require agents to orchestrate multiple steps, including discovering intermediate entities, combining weak clues, and revising the plan after observing partial evidence. To tackle the limitation, we study direct corpus interaction (DCI), where an agent searches the raw corpus directly with general-purpose terminal tools (e.g., grep, file reads, shell commands, lightweight scripts), without any embedding model, vector index, or retrieval API. This approach requires no offline indexing and adapts naturally to evolving local corpora. Across IR benchmarks and end-to-end agentic search tasks, this simple setup substantially outperforms strong sparse, dense, and reranking baselines on several BRIGHT and BEIR datasets, and attains strong accuracy on BrowseComp-Plus and multi-hop QA without relying on any conventional semantic retriever. Our results indicate that as language agents become stronger, retrieval quality depends not only on reasoning ability but also on the resolution of the interface through which the model interacts with the corpus, with which DCI opens a broader interface-design space for agentic search.
- Abstract(参考訳): 語彙や意味に拘わらず、現代の検索システムはコーパスを固定された類似性インターフェースを通じて公開し、推論の前に単一のトップk検索ステップへのアクセスを圧縮する。
この抽象化は効率的だが, エージェント検索では, 正確な語彙制約, 疎結合, 局所文脈チェック, マルチステップ仮説修正は, 従来のオフ・ザ・シェルフ・レトリバーを呼び出すことで実装が困難であり, 早期にフィルタリングされた証拠は下流のより強い推論によって回収できない。
エージェント・タスクは、エージェントが中間的な実体を発見すること、弱い手がかりを組み合わせること、部分的な証拠を観察した後に計画を変更することを含む複数のステップを編成することを要求するため、この制限をさらに悪化させる。
この制限に対処するために、エージェントが汎用端末ツール(例えば、grep、ファイル読み込み、シェルコマンド、軽量スクリプト)で生コーパスを直接検索する直接コーパスインタラクション(DCI)について、埋め込みモデル、ベクトルインデックス、検索APIを使わずに検討する。
このアプローチではオフラインインデックスを必要とせず、ローカルコーパスの進化に自然に適応する。
IRベンチマークとエンドツーエンドのエージェント検索タスク全体にわたって、この単純なセットアップは、複数のBRIGHTおよびBEIRデータセットの強力なスパース、密度、リランクベースラインを大幅に上回り、従来のセマンティックレトリバーに頼ることなく、BrowseComp-PlusおよびマルチホップQAに対して高い精度を達成する。
その結果,言語エージェントが強くなるにつれて,検索品質は推論能力だけでなく,モデルがコーパスと相互作用するインタフェースの解像度にも依存することがわかった。
関連論文リスト
- Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval [25.731213365755234]
textitSuperIntelligent Retrieval Agent (SIRA)を紹介する。
SIRAは、複数ラウンド探索探索を単一のコーパス識別検索アクションに圧縮することができる。
解釈可能で、トレーニング不要で、効率的でありながら、より高価なマルチラウンドサーチを超えることができる。
論文 参考訳(メタデータ) (2026-05-07T17:54:29Z) - OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries [20.960193343595492]
OBLIQ-Benchは、本物のロングテールコーパスに対する5つの斜め探索問題のスイートである。
OBLIQ-Benchは、検索と検証の間に見落とされた非対称性を公開する。
我々はOBLIQ-Benchが、大規模コーパスにおける潜在パターンや暗黙の信号を効率的にキャプチャする検索アーキテクチャの研究を進めることを願っている。
論文 参考訳(メタデータ) (2026-05-07T13:22:49Z) - Bridging the Pose-Semantic Gap: A Cascade Framework for Text-Based Person Anomaly Search [45.34874989015716]
テキストベースの人物異常検索は、自然言語クエリを使用して監視アーカイブから特定の行動イベントを検索する。
最近のポーズアウェア法は、意味的に異なるアクションが類似した骨格のジオメトリを共有できるという、基本的なPose-Semantic Gapに直面している。
本稿では,検索を2段階に分離するSSDC(Structure-Semantic Decoupled Cascade)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-25T12:53:15Z) - Rethinking Deep Research from the Perspective of Web Content Distribution Matching [86.90255285277256]
WeDasは,検索空間の構造的特徴をエージェントの観察空間に組み込んだWebコンテンツ配信アウェアフレームワークである。
本稿では,Query-Result Alignment Scoreを反復的に推定する数ショットの探索機構を提案する。
プラグイン・アンド・プレイモジュールとして、WeDasは4つのベンチマークのサブゴール補完と精度を一貫して改善している。
論文 参考訳(メタデータ) (2026-03-07T14:51:17Z) - GrepRAG: An Empirical Study and Optimization of Grep-Like Retrieval for Code Completion [32.17127975368661]
リポジトリレベルのコード補完は、大きな言語モデルでは依然として困難である。
本稿では,軽量でインデックスなし,意図認識型語彙検索について検討する。
本稿では,LLMが関連するコンテキストを自動生成するベースラインフレームワークであるNaive GrepRAGを紹介する。
論文 参考訳(メタデータ) (2026-01-30T18:22:15Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection [7.030364980618468]
本稿では,セマンティックな事前情報と特徴学習を組み込んだ新しいプラグアンドプレイHOI検出フレームワークを提案する。
本手法はHICO-DetおよびV-COCOベンチマーク上での最先端性能と強力な一般化を実現する。
論文 参考訳(メタデータ) (2025-08-12T03:11:16Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。