論文の概要: Topic-Grained Text Representation-based Model for Document Retrieval
- arxiv url: http://arxiv.org/abs/2207.04656v1
- Date: Mon, 11 Jul 2022 06:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 00:32:34.714603
- Title: Topic-Grained Text Representation-based Model for Document Retrieval
- Title(参考訳): トピックグレードテキスト表現に基づく文書検索モデル
- Authors: Mengxue Du, Shasha Li, Jie Yu, Jun Ma, Bin Ji, Huijun Liu, Wuhang Lin,
Zibo Yi
- Abstract要約: TGTRは、文書検索のためのトピックグレードテキスト表現ベースのモデルである。
ドキュメント表現をオフラインに保存し、検索効率を保証します。
従来の単語の粒度ではなく、新しいトピックの粒度表現を使用することで、ストレージ要件を大幅に削減する。
- 参考スコア(独自算出の注目度): 9.483212308046964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document retrieval enables users to find their required documents accurately
and quickly. To satisfy the requirement of retrieval efficiency, prevalent deep
neural methods adopt a representation-based matching paradigm, which saves
online matching time by pre-storing document representations offline. However,
the above paradigm consumes vast local storage space, especially when storing
the document as word-grained representations. To tackle this, we present TGTR,
a Topic-Grained Text Representation-based Model for document retrieval.
Following the representation-based matching paradigm, TGTR stores the document
representations offline to ensure retrieval efficiency, whereas it
significantly reduces the storage requirements by using novel topicgrained
representations rather than traditional word-grained. Experimental results
demonstrate that compared to word-grained baselines, TGTR is consistently
competitive with them on TREC CAR and MS MARCO in terms of retrieval accuracy,
but it requires less than 1/10 of the storage space required by them. Moreover,
TGTR overwhelmingly surpasses global-grained baselines in terms of retrieval
accuracy.
- Abstract(参考訳): 文書検索により、ユーザーは必要な文書を正確かつ迅速に見つけることができる。
検索効率の要求を満たすため、一般的なディープニューラルメソッドでは、文書表現をオフラインに保存することでオンラインマッチング時間を節約する表現ベースのマッチングパラダイムを採用している。
しかし、上記のパラダイムは、特に文書を単語のきめ細かい表現として保存する際に、広大なローカルストレージ空間を消費する。
そこで本稿では,TGTR(Topic-Grained Text Representation-based Model)を提案する。
表現に基づくマッチングのパラダイムに従って、TGTRは文書表現をオフラインに保存し、検索効率を確保する。
実験結果から,TGTRは単語粒度のベースラインと比較して,TREC CARやMS MARCOと連続的に競合するが,要求される記憶空間の1/10以下であることがわかった。
さらに,TGTRは,検索精度において,大域的なベースラインを超えている。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - DREQ: Document Re-Ranking Using Entity-based Query Understanding [6.675805308519988]
DREQはエンティティ指向の高密度ドキュメント再ランクモデルである。
ドキュメント表現内のクエリ関連エンティティを強調しながら、関連性の低いエンティティを同時に減らします。
DREQは、最先端のニューラル・非ニューラル・リグレード法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-11T14:27:12Z) - Attentive Deep Neural Networks for Legal Document Retrieval [2.4350217735794337]
法令文書検索における注意型ニューラルネットワークを用いたテキスト表現法について検討した。
長い文や記事を表すために,2つの階層型アーキテクチャを開発し,それをAttentive CNN と Paraformer と命名する。
実験結果から,知覚的ニューラル法は,データセットや言語間での検索性能において,非神経的手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-12-13T01:37:27Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。