論文の概要: A Reference Architecture for Agentic Hybrid Retrieval in Dataset Search
- arxiv url: http://arxiv.org/abs/2604.16394v1
- Date: Sat, 28 Mar 2026 22:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.959416
- Title: A Reference Architecture for Agentic Hybrid Retrieval in Dataset Search
- Title(参考訳): データセット検索におけるエージェントハイブリッド検索のための参照アーキテクチャ
- Authors: Riccardo Terrenzi, Phongsakon Mark Konrad, Tim Lukas Adam, Serkan Ayvaz,
- Abstract要約: アドホックデータセット検索では、未特定の自然言語クエリとスパースで異質なメタデータレコードとをマッチングする必要がある。
本稿では,BM25語彙探索と密埋め込み検索を組み合わせたエージェントハイブリッド検索のための有界・監査可能な参照アーキテクチャを提案する。
ユーザ意図とプロバイダが承認したメタデータとの語彙ミスマッチを低減するために、オフラインメタデータ拡張ステップが導入される。
- 参考スコア(独自算出の注目度): 0.6299766708197881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ad hoc dataset search requires matching underspecified natural-language queries against sparse, heterogeneous metadata records, a task where typical lexical or dense retrieval alone falls short. We reposition dataset search as a software-architecture problem and propose a bounded, auditable reference architecture for agentic hybrid retrieval that combines BM25 lexical search with dense-embedding retrieval via reciprocal rank fusion (RRF), orchestrated by a large language model (LLM) agent that repeatedly plans queries, evaluates the sufficiency of results, and reranks candidates. To reduce the vocabulary mismatch between user intent and provider-authored metadata, we introduce an offline metadata augmentation step in which an LLM generates pseudo-queries for each dataset record, augmenting both retrieval indexes before query time. Two architectural styles are examined: a single ReAct agent and a multi-agent horizontal architecture with Feedback Control. Their quality-attribute tradeoffs are analyzed with respect to modifiability, observability, performance, and governance. An evaluation framework comprising seven system variants is defined to isolate the contribution of each architectural decision. The architecture is presented as an extensible reference design for the software architecture community, incorporating explicit governance tactics to bound and audit nondeterministic LLM components.
- Abstract(参考訳): アドホックデータセット検索では、不特定な自然言語クエリをスパースで異質なメタデータレコードと照合する必要がある。
ソフトウェアアーキテクチャ問題としてデータセット検索を再配置し,BM25語彙検索と相互ランク融合(RRF)による密埋め込み検索を組み合わせたエージェントハイブリッド検索のための有界・監査可能な参照アーキテクチャを提案し,クエリの計画を繰り返し行う大規模言語モデル(LLM)エージェントによって編成され,結果の十分性を評価し,候補を再帰する。
ユーザ意図とプロバイダが承認したメタデータ間の語彙ミスマッチを低減するために,LLMが各データセットレコードに対して擬似クエリを生成するオフラインメタデータ拡張ステップを導入し,クエリ時間前に両方の検索インデックスを拡大する。
単一のReActエージェントと、フィードバック制御を備えたマルチエージェント水平アーキテクチャの2つのアーキテクチャスタイルが検討されている。
品質と貢献のトレードオフは、変更性、可観測性、パフォーマンス、ガバナンスに関して分析されます。
7つのシステム変種からなる評価フレームワークを定義し、各アーキテクチャ決定の貢献を分離する。
このアーキテクチャは、ソフトウェアアーキテクチャコミュニティのための拡張可能な参照設計として提示され、非決定論的LCMコンポーネントのバウンドおよび監査に明示的なガバナンス戦略を取り入れている。
関連論文リスト
- AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis [11.689256498133446]
埋め込みから構造化アノテーションへ移行する新しい検索パラダイムであるAnnoRetrieveを提案する。
提案システムは,高コストなベクトル比較を,自動生成スキーマよりも軽量な構造化クエリに置き換える。
AnoRetrieveは、インテリジェントな構造化を通じて、コスト効率、正確、スケーラブルなドキュメント分析のための新しいパラダイムを確立している。
論文 参考訳(メタデータ) (2026-04-03T03:34:19Z) - LLM-based Semantic Search for Conversational Queries in E-commerce [1.3645712130536118]
会話クエリからユーザ意図をキャプチャするLLMベースのセマンティック検索フレームワークを提案する。
本フレームワークは,実世界のデータセットのベースラインアプローチと比較して,様々な設定において高い精度とリコールを実現する。
論文 参考訳(メタデータ) (2026-01-23T06:35:28Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Multimodal Information Retrieval for Open World with Edit Distance Weak Supervision [0.0]
FemmIRは、例えば類似性ラベルなしでマルチモーダルクエリで表現された情報に関連のある結果を検索するフレームワークである。
また,MuconoLの欠失症例に対してFemmIRを経験的に評価した。
論文 参考訳(メタデータ) (2025-06-25T00:25:08Z) - Mixture-of-RAG: Integrating Text and Tables with Large Language Models [5.038576104344948]
不均一文書RAGは、テキストデータと階層データ間の共同検索と推論を必要とする。
階層構造と異種関係を保存する新しい3段階フレームワークであるMixRAGを提案する。
実験の結果、MixRAGは強いテキストのみ、テーブルのみ、ナイーブミキサーベースラインよりもトップ1検索を46%向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation [11.53083922927901]
HM-RAGは階層型マルチエージェントマルチモーダルRAGフレームワークである。
構造化、非構造化、グラフベースのデータ間での動的知識合成のための協調知能の先駆者である。
論文 参考訳(メタデータ) (2025-04-13T06:55:33Z) - MultiConIR: Towards multi-condition Information Retrieval [38.864056667809095]
MultiConIRは、複雑なマルチ条件クエリシナリオ下での検索および再ランクモデルの評価のために設計されたベンチマークである。
ほとんどのレトリバーとリランカは、クエリの複雑さが増大するにつれて、パフォーマンスが大幅に低下する。
この研究は、リランカの性能劣化の原因を解明し、クエリ内の条件位置が類似性評価にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。