論文の概要: Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe
- arxiv url: http://arxiv.org/abs/2509.16411v1
- Date: Fri, 19 Sep 2025 20:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.777449
- Title: Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe
- Title(参考訳): 階層的検索 : 幾何とプレトレイン-フィネチューンレシピ
- Authors: Chong You, Rajesh Jayaram, Ananda Theertha Suresh, Robin Nittka, Felix Yu, Sanjiv Kumar,
- Abstract要約: 一致するクエリとドキュメントのペアを類似したベクトル表現に埋め込んだデュアルエンコーダ(DE)モデルは、情報検索に広く利用されている。
本稿では,階層的検索(HR)の文脈において,文書集合が階層構造を持ち,クエリに適合する文書がすべてその祖先であるような制約について検討する。
近い文書の性能を犠牲にすることなく、長距離検索を大幅に改善するプレトレインファインチューンレシピを提案する。
- 参考スコア(独自算出の注目度): 42.35197658021889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dual encoder (DE) models, where a pair of matching query and document are embedded into similar vector representations, are widely used in information retrieval due to their simplicity and scalability. However, the Euclidean geometry of the embedding space limits the expressive power of DEs, which may compromise their quality. This paper investigates such limitations in the context of hierarchical retrieval (HR), where the document set has a hierarchical structure and the matching documents for a query are all of its ancestors. We first prove that DEs are feasible for HR as long as the embedding dimension is linear in the depth of the hierarchy and logarithmic in the number of documents. Then we study the problem of learning such embeddings in a standard retrieval setup where DEs are trained on samples of matching query and document pairs. Our experiments reveal a lost-in-the-long-distance phenomenon, where retrieval accuracy degrades for documents further away in the hierarchy. To address this, we introduce a pretrain-finetune recipe that significantly improves long-distance retrieval without sacrificing performance on closer documents. We experiment on a realistic hierarchy from WordNet for retrieving documents at various levels of abstraction, and show that pretrain-finetune boosts the recall on long-distance pairs from 19% to 76%. Finally, we demonstrate that our method improves retrieval of relevant products on a shopping queries dataset.
- Abstract(参考訳): デュアルエンコーダ(DE)モデルでは,クエリとドキュメントのペアを類似したベクトル表現に埋め込むことで,その単純さと拡張性から情報検索に広く利用されている。
しかし、埋め込み空間のユークリッド幾何学は、それらの品質を損なう可能性のある DE の表現力を制限する。
本稿では,階層的検索(HR)の文脈において,文書集合が階層構造を持ち,クエリに適合する文書がすべてその祖先であるような制約について検討する。
埋め込み次元が階層の深さと文書数対数で線形である限り、DESがHRに対して実現可能であることを最初に証明する。
次に、DESが一致するクエリと文書ペアのサンプルに基づいて訓練される標準的な検索設定において、そのような埋め込みを学習する問題について検討する。
提案実験では,文書の検索精度が階層内でさらに低下する長距離距離現象を呈する。
そこで本研究では,近距離文書の性能を犠牲にすることなく,長距離検索を大幅に改善するプレトレインファインチューンレシピを提案する。
我々は,WordNetの現実的な階層構造を用いて,文書を様々なレベルの抽象化で検索し,長距離ペアのリコールを19%から76%に向上させることを示す。
最後に,提案手法は,ショッピングクエリデータセット上の関連商品の検索を改善することを実証する。
関連論文リスト
- Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents [17.506934704019226]
標準化されたドキュメントは、反復的なボイラープレートテキストや同様のテーブル構造など、同様のフォーマットを共有している。
この類似性により、従来のRAGメソッドは、ほぼ重複したテキストを誤識別し、精度と完全性を損なう重複検索につながる。
本稿では,これらの問題に対処するためのEvidence Curationフレームワークを用いた階層検索手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T11:08:23Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。