論文の概要: COIL: Revisit Exact Lexical Match in Information Retrieval with
Contextualized Inverted List
- arxiv url: http://arxiv.org/abs/2104.07186v1
- Date: Thu, 15 Apr 2021 00:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:53:55.615153
- Title: COIL: Revisit Exact Lexical Match in Information Retrieval with
Contextualized Inverted List
- Title(参考訳): COIL:文脈付き逆リストを用いた情報検索における厳密な語彙マッチングの再検討
- Authors: Luyu Gao, Zhuyun Dai, Jamie Callan
- Abstract要約: COILは文脈化された正確な一致検索アーキテクチャであり、意味的語彙マッチングをもたらす。
COILは古典的な語彙レトリバーと最先端の深いLMレトリバーを同等またはより小さいレイテンシで上回る。
- 参考スコア(独自算出の注目度): 19.212507277554415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical information retrieval systems such as BM25 rely on exact lexical
match and carry out search efficiently with inverted list index. Recent neural
IR models shifts towards soft semantic matching all query document terms, but
they lose the computation efficiency of exact match systems. This paper
presents COIL, a contextualized exact match retrieval architecture that brings
semantic lexical matching. COIL scoring is based on overlapping query document
tokens' contextualized representations. The new architecture stores
contextualized token representations in inverted lists, bringing together the
efficiency of exact match and the representation power of deep language models.
Our experimental results show COIL outperforms classical lexical retrievers and
state-of-the-art deep LM retrievers with similar or smaller latency.
- Abstract(参考訳): bm25のような古典的な情報検索システムは正確な語彙マッチングに依存し、逆リストインデックスで効率的に検索を行う。
最近のニューラルIRモデルは、全てのクエリドキュメント用語をソフトなセマンティックマッチングにシフトするが、正確なマッチングシステムの計算効率は失われる。
本稿では,意味的語彙マッチングをもたらす文脈的完全マッチング検索アーキテクチャである coil を提案する。
COILスコアリングは、クエリドキュメントトークンのコンテキスト化表現の重複に基づく。
新しいアーキテクチャでは、コンテキスト化されたトークン表現を逆リストに格納し、正確なマッチングの効率と深層言語モデルの表現力を結合する。
実験結果から,コイルは古典語彙レトリバーや最先端のディープlmレトリバーに匹敵する低レイテンシを示した。
関連論文リスト
- Aligning Query Representation with Rewritten Query and Relevance Judgments in Conversational Search [32.35446999027349]
我々は、より優れたクエリ表現モデルをトレーニングするために、リライトされたクエリと会話検索データの関連判断の両方を活用する。
提案したモデル --Query Representation Alignment Conversational Retriever(QRACDR)は、8つのデータセットでテストされる。
論文 参考訳(メタデータ) (2024-07-29T17:14:36Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。