論文の概要: CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking
- arxiv url: http://arxiv.org/abs/2112.08766v1
- Date: Thu, 16 Dec 2021 10:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 00:00:07.930044
- Title: CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking
- Title(参考訳): CoDER: Contextualized Document Embedding Re rankによる検索改善のための効率的なフレームワーク
- Authors: George Zerveas, Navid Rekabsaz, Daniel Cohen, Carsten Eickhoff
- Abstract要約: 本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
- 参考スコア(独自算出の注目度): 11.635294568328625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for improving the performance of a wide class of
retrieval models at minimal computational cost. It utilizes precomputed
document representations extracted by a base dense retrieval method and
involves training a model to jointly score a large set of retrieved candidate
documents for each query, while potentially transforming on the fly the
representation of each document in the context of the other candidates as well
as the query itself. When scoring a document representation based on its
similarity to a query, the model is thus aware of the representation of its
"peer" documents. We show that our approach leads to substantial improvement in
retrieval performance over the base method and over scoring candidate documents
in isolation from one another, as in a pair-wise training setting. Crucially,
unlike term-interaction rerankers based on BERT-like encoders, it incurs a
negligible computational overhead on top of any first-stage method at run time,
allowing it to be easily combined with any state-of-the-art dense retrieval
method. Finally, concurrently considering a set of candidate documents for a
given query enables additional valuable capabilities in retrieval, such as
score calibration and mitigating societal biases in ranking.
- Abstract(参考訳): 本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
基礎密検索法で抽出された予め計算された文書表現を利用し、各クエリに対して検索された候補文書の大規模な集合を共同でスコア付けするモデルを訓練し、他の候補の文脈で各文書の表現を他のクエリ自身と共にフライで変換する。
クエリとの類似性に基づいてドキュメント表現をスコアリングする場合、モデルはその"peer"ドキュメントの表現を認識します。
本手法は,ペアトレーニング環境でのように,ベースメソッドよりも検索性能が大幅に向上し,候補文書を別々にスコアリングすることにつながることを示す。
bertライクなエンコーダに基づく項相互作用リランサーとは異なり、実行時に任意のファーストステージメソッド上に計算オーバーヘッドを負い、任意の最先端の密集した検索方法と簡単に組み合わせることができる。
最後に、与えられたクエリの候補ドキュメントセットを同時に考慮することで、スコアキャリブレーションやランキングにおける社会バイアスの緩和など、検索に付加的な価値を提供できる。
関連論文リスト
- Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z) - A Proposed Conceptual Framework for a Representational Approach to
Information Retrieval [42.67826268399347]
本稿では,情報検索と自然言語処理における最近の発展を理解するための概念的枠組みについて概説する。
本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T15:57:02Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。