論文の概要: COIL: Revisit Exact Lexical Match in Information Retrieval with
Contextualized Inverted List
- arxiv url: http://arxiv.org/abs/2104.07186v1
- Date: Thu, 15 Apr 2021 00:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:53:55.615153
- Title: COIL: Revisit Exact Lexical Match in Information Retrieval with
Contextualized Inverted List
- Title(参考訳): COIL:文脈付き逆リストを用いた情報検索における厳密な語彙マッチングの再検討
- Authors: Luyu Gao, Zhuyun Dai, Jamie Callan
- Abstract要約: COILは文脈化された正確な一致検索アーキテクチャであり、意味的語彙マッチングをもたらす。
COILは古典的な語彙レトリバーと最先端の深いLMレトリバーを同等またはより小さいレイテンシで上回る。
- 参考スコア(独自算出の注目度): 19.212507277554415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical information retrieval systems such as BM25 rely on exact lexical
match and carry out search efficiently with inverted list index. Recent neural
IR models shifts towards soft semantic matching all query document terms, but
they lose the computation efficiency of exact match systems. This paper
presents COIL, a contextualized exact match retrieval architecture that brings
semantic lexical matching. COIL scoring is based on overlapping query document
tokens' contextualized representations. The new architecture stores
contextualized token representations in inverted lists, bringing together the
efficiency of exact match and the representation power of deep language models.
Our experimental results show COIL outperforms classical lexical retrievers and
state-of-the-art deep LM retrievers with similar or smaller latency.
- Abstract(参考訳): bm25のような古典的な情報検索システムは正確な語彙マッチングに依存し、逆リストインデックスで効率的に検索を行う。
最近のニューラルIRモデルは、全てのクエリドキュメント用語をソフトなセマンティックマッチングにシフトするが、正確なマッチングシステムの計算効率は失われる。
本稿では,意味的語彙マッチングをもたらす文脈的完全マッチング検索アーキテクチャである coil を提案する。
COILスコアリングは、クエリドキュメントトークンのコンテキスト化表現の重複に基づく。
新しいアーキテクチャでは、コンテキスト化されたトークン表現を逆リストに格納し、正確なマッチングの効率と深層言語モデルの表現力を結合する。
実験結果から,コイルは古典語彙レトリバーや最先端のディープlmレトリバーに匹敵する低レイテンシを示した。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Retrieving Texts based on Abstract Descriptions [63.89087805237351]
埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。
我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。