論文の概要: Evaluating Dense Passage Retrieval using Transformers
- arxiv url: http://arxiv.org/abs/2208.06959v1
- Date: Mon, 15 Aug 2022 01:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:28:36.112406
- Title: Evaluating Dense Passage Retrieval using Transformers
- Title(参考訳): 変圧器を用いたDense Passage Retrievalの評価
- Authors: Nima Sadri
- Abstract要約: この研究は、Transformer表現検索モデルをテストするために、文献の研究者が続くベストプラクティスと慣習を定式化する。
本稿では,最もよく知られた高密度検索モデルの実験により,このフレームワークの利用について紹介する。
- 参考スコア(独自算出の注目度): 5.33024001730262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although representational retrieval models based on Transformers have been
able to make major advances in the past few years, and despite the widely
accepted conventions and best-practices for testing such models, a
$\textit{standardized}$ evaluation framework for testing them has not been
developed. In this work, we formalize the best practices and conventions
followed by researchers in the literature, paving the path for more
standardized evaluations - and therefore more fair comparisons between the
models. Our framework (1) embeds the documents and queries; (2) for each
query-document pair, computes the relevance score based on the dot product of
the document and query embedding; (3) uses the $\texttt{dev}$ set of the
MSMARCO dataset to evaluate the models; (4) uses the $\texttt{trec_eval}$
script to calculate MRR@100, which is the primary metric used to evaluate the
models. Most importantly, we showcase the use of this framework by
experimenting on some of the most well-known dense retrieval models.
- Abstract(参考訳): トランスフォーマーに基づく表現的検索モデルはここ数年で大きな進歩を遂げてきたが、広く受け入れられている慣習やそれらのモデルをテストするためのベストプラクティスにもかかわらず、それらのテストのための$\textit{standardized}$評価フレームワークは開発されていない。
本研究では、文献の研究者によるベストプラクティスと慣行を形式化し、より標準化された評価のための道を歩み、したがってモデル間のより公正な比較を行う。
本フレームワークは,(1) ドキュメントとクエリを埋め込み,(2) クエリとドキュメントのペアごとに,ドキュメントのドット積とクエリの埋め込みに基づいて関連スコアを計算し,(3) MSMARCO データセットの $\texttt{dev}$ セットを用いてモデルを評価する。(4) は,モデルを評価するのに使用する主要な指標である MRR@100 の計算に $\texttt{trec_eval}$ スクリプトを使用する。
最も重要なのは,このフレームワークの利用を,最もよく知られた高密度検索モデルで実験することで紹介することです。
関連論文リスト
- ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models [12.035509884945789]
テキストと画像の両方を含む生成出力を評価するために設計されたReFeRというチューニング不要のフレームワークを導入する。
フレームワークであるReFeRを4つの多様な評価タスクで厳格に評価します。
4つの推論タスクの実験は、フレームワークのより優れた集団推論能力を示す。
論文 参考訳(メタデータ) (2024-07-16T08:25:26Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。