論文の概要: ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval
- arxiv url: http://arxiv.org/abs/2502.07971v1
- Date: Tue, 11 Feb 2025 21:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:48.938824
- Title: ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval
- Title(参考訳): ReTreever: 検索のためのツリーベース粗い表現
- Authors: Shubham Gupta, Zichao Li, Tianyi Chen, Cem Subakan, Siva Reddy, Perouz Taslakian, Valentina Zantedeschi,
- Abstract要約: そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
- 参考スコア(独自算出の注目度): 64.44265315244579
- License:
- Abstract: Document retrieval is a core component of question-answering systems, as it enables conditioning answer generation on new and large-scale corpora. While effective, the standard practice of encoding documents into high-dimensional embeddings for similarity search entails large memory and compute footprints, and also makes it hard to inspect the inner workings of the system. In this paper, we propose a tree-based method for organizing and representing reference documents at various granular levels, which offers the flexibility to balance cost and utility, and eases the inspection of the corpus content and retrieval operations. Our method, called ReTreever, jointly learns a routing function per internal node of a binary tree such that query and reference documents are assigned to similar tree branches, hence directly optimizing for retrieval performance. Our evaluations show that ReTreever generally preserves full representation accuracy. Its hierarchical structure further provides strong coarse representations and enhances transparency by indirectly learning meaningful semantic groupings. Among hierarchical retrieval methods, ReTreever achieves the best retrieval accuracy at the lowest latency, proving that this family of techniques can be viable in practical applications.
- Abstract(参考訳): 文書検索は質問応答システムの中核的な要素であり、新しい大規模コーパスに対して条件付き回答生成を可能にする。
文書を高次元の埋め込みに符号化して類似性検索を行う標準的な手法では、大きなメモリと計算フットプリントが必要であり、システムの内部動作の検査も困難である。
本稿では,コストとユーティリティのバランスをとる柔軟性を提供し,コーパスの内容や検索操作の検査を容易にする,参照文書を様々なレベルで整理・表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照文書が同様のツリーブランチに割り当てられるようにバイナリツリーの内部ノード毎のルーティング関数を共同で学習し、検索性能を直接最適化する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
その階層構造は、さらに強力な粗い表現を提供し、意味のあるセマンティックグルーピングを間接的に学習することで透明性を高める。
階層的検索手法の中では、ReTreeverは最も高い検索精度を低レイテンシで達成し、この手法のファミリが実用的な用途で実現可能であることを証明した。
関連論文リスト
- Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval [26.527911244587134]
本稿では,テキストの集合体への埋め込み,クラスタリング,要約という新たなアプローチを導入し,下から異なるレベルの要約レベルを持つ木を構築する。
我々のRAPTORモデルは、推測時にこの木から取得し、異なるレベルの抽象化で長いドキュメントにまたがる情報を統合します。
論文 参考訳(メタデータ) (2024-01-31T18:30:21Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Context-aware Tree-based Deep Model for Recommender Systems [22.537595224145356]
木構造Tをインデックスとし、T上の葉ノードにコーパス内の各項目をアタッチする。
本稿では,木に基づく手法の効率的な検索を支援するために用いた木指標が,コーパスに関する豊富な階層情報を持っていることを論じる。
本稿では,コメンテータシステムのための新しいコンテキスト対応ツリーベースディープモデル(ConTDM)を提案する。
論文 参考訳(メタデータ) (2021-09-22T09:06:36Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。