論文の概要: Beyond Single Embeddings: Capturing Diverse Targets with Multi-Query Retrieval
- arxiv url: http://arxiv.org/abs/2511.02770v1
- Date: Tue, 04 Nov 2025 17:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.13098
- Title: Beyond Single Embeddings: Capturing Diverse Targets with Multi-Query Retrieval
- Title(参考訳): シングルエンベッドを超えて:マルチクエリ検索でさまざまなターゲットをキャプチャする
- Authors: Hung-Ting Chen, Xiang Liu, Shauli Ravfogel, Eunsol Choi,
- Abstract要約: 我々は新しい検索アーキテクチャemphAutoregressive emphMulti-emphEmbedding emphRetriever(AMER)を開発した。
我々のモデルは複数のクエリベクトルを自動回帰的に生成し、予測されたクエリベクトルはすべてコーパスから文書を取得するために使用される。
AMERは、評価した2つのデータセットに対して、単一の埋め込みベースラインに対して4と21%の相対的なゲインを示します。
- 参考スコア(独自算出の注目度): 45.166788898665665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most text retrievers generate \emph{one} query vector to retrieve relevant documents. Yet, the conditional distribution of relevant documents for the query may be multimodal, e.g., representing different interpretations of the query. We first quantify the limitations of existing retrievers. All retrievers we evaluate struggle more as the distance between target document embeddings grows. To address this limitation, we develop a new retriever architecture, \emph{A}utoregressive \emph{M}ulti-\emph{E}mbedding \emph{R}etriever (AMER). Our model autoregressively generates multiple query vectors, and all the predicted query vectors are used to retrieve documents from the corpus. We show that on the synthetic vectorized data, the proposed method could capture multiple target distributions perfectly, showing 4x better performance than single embedding model. We also fine-tune our model on real-world multi-answer retrieval datasets and evaluate in-domain. AMER presents 4 and 21\% relative gains over single-embedding baselines on two datasets we evaluate on. Furthermore, we consistently observe larger gains on the subset of dataset where the embeddings of the target documents are less similar to each other. We demonstrate the potential of using a multi-query vector retriever and open up a new direction for future work.
- Abstract(参考訳): ほとんどのテキストレトリバーは、関連するドキュメントを取得するために \emph{one} クエリベクタを生成する。
しかし、クエリに関連するドキュメントの条件分布は、クエリの異なる解釈を表すマルチモーダル(multimodal)である。
まず、既存の検索者の制限を定量化する。
対象文書の埋め込み距離が大きくなるにつれて、評価するすべての検索者は、より苦労する。
この制限に対処するため,新しい検索アーキテクチャであるemph{A}utoregressive \emph{M}ulti-\emph{E}mbedding \emph{R}etriever (AMER)を開発した。
我々のモデルは複数のクエリベクトルを自動回帰的に生成し、予測されたクエリベクトルはすべてコーパスから文書を取得するために使用される。
合成ベクトル化データを用いて,提案手法は複数のターゲット分布を完璧に捕捉し,単一の埋め込みモデルよりも4倍の性能を示すことを示した。
また、実世界のマルチアンサー検索データセットにモデルを微調整し、ドメイン内での評価を行う。
AMERは、評価した2つのデータセットに対して、単一埋め込みベースラインに対して4と21の相対的なゲインを示します。
さらに、ターゲット文書の埋め込みが互いに似ていないデータセットのサブセットにおいて、より大きなゲインを一貫して観察する。
マルチクエリ・ベクター・レトリバーの可能性を実証し,今後の研究に向けて新たな方向性を示す。
関連論文リスト
- Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-11-14T07:41:48Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Multi-Vector Retrieval as Sparse Alignment [21.892007741798853]
本稿では,クエリと文書トークンの相互アライメントを疎結合に学習する,新しいマルチベクタ検索モデルを提案する。
エントロピー規則化線形計画法により、疎度を達成するために他の手法よりも優れるスパースなユニタリサリエンスを学習する。
我々のモデルは、しばしば解釈可能なアライメントを生成し、より大きな言語モデルからその性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-11-02T16:49:58Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - End-to-End Training of Multi-Document Reader and Retriever for
Open-Domain Question Answering [36.80395759543162]
本稿では,検索拡張されたオープンドメイン質問応答システムに対するエンドツーエンドの差別化学習手法を提案する。
我々は,検索決定を関連文書の集合よりも遅延変数としてモデル化する。
提案手法は,一致点の精度を2~3%向上させる。
論文 参考訳(メタデータ) (2021-06-09T19:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。