論文の概要: A Replication Study of Dense Passage Retriever
- arxiv url: http://arxiv.org/abs/2104.05740v1
- Date: Mon, 12 Apr 2021 18:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 05:05:12.726995
- Title: A Replication Study of Dense Passage Retriever
- Title(参考訳): Dense Passage Retriever の再現性の検討
- Authors: Xueguang Ma, Kai Sun, Ronak Pradeep, and Jimmy Lin
- Abstract要約: Karpukhinらによって提案された高密度通過レトリバー(DPR)技術について研究する。
(2020) エンドツーエンドのオープンドメイン質問応答。
本稿では,著者らによるモデルチェックポイントから本研究の再現性について検討する。
私たちは、オリジナルの作業とまったく同じモデルを使って、エンドツーエンドの質問応答の有効性を改善することができます。
- 参考スコア(独自算出の注目度): 32.192420072129636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text retrieval using learned dense representations has recently emerged as a
promising alternative to "traditional" text retrieval using sparse bag-of-words
representations. One recent work that has garnered much attention is the dense
passage retriever (DPR) technique proposed by Karpukhin et al. (2020) for
end-to-end open-domain question answering. We present a replication study of
this work, starting with model checkpoints provided by the authors, but
otherwise from an independent implementation in our group's Pyserini IR toolkit
and PyGaggle neural text ranking library. Although our experimental results
largely verify the claims of the original paper, we arrived at two important
additional findings that contribute to a better understanding of DPR: First, it
appears that the original authors under-report the effectiveness of the BM25
baseline and hence also dense--sparse hybrid retrieval results. Second, by
incorporating evidence from the retriever and an improved answer span scoring
technique, we are able to improve end-to-end question answering effectiveness
using exactly the same models as in the original work.
- Abstract(参考訳): 学習された高密度表現を用いたテキスト検索は、近年、スパースバッグ・オブ・ワード表現を用いた「伝統的な」テキスト検索に代わる有望な代替手段として浮上している。
最近の研究で注目されているのは、Karpukhinらによって提案されたDPR技術である。
(2020) エンド・ツー・エンドの質問応答。
本研究は,著者らが提供したモデルチェックポイントから始まるが,それ以外は,我々のグループのPyserini IRツールキットとPyGaggleニューラルテキストランキングライブラリの独立した実装から始まる。
実験の結果,dprの理解を深める上で重要な2つの発見が得られた。第1に,bm25ベースラインの有効性を報告していないこと,また,分散ハイブリッド検索の結果も報告している。
第2に,レトリバーからのエビデンスと改良された回答スパンスコアリング手法を組み込むことで,元の作業とまったく同じモデルを用いて,エンドツーエンドの質問応答効率を向上させることができる。
関連論文リスト
- QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval [12.225881591629815]
厳密な検索では、長いテキストを密度の高いベクトルに埋め込むと、情報が失われ、クエリとテキストのマッチングが不正確になる。
近年の研究では,文の埋め込みモデルや検索プロセスの改善を中心に研究が進められている。
本稿では,高密度検索のための新しいテキスト拡張フレームワークを導入し,生文書を高密度テキスト形式に変換する。
論文 参考訳(メタデータ) (2024-07-29T17:39:08Z) - Topic-DPR: Topic-based Prompts for Dense Passage Retrieval [6.265789210037749]
トピックベースのプロンプトを用いた高密度経路探索モデルであるTopic-DPRを提案する。
本稿では, 半構造化データを利用して高密度検索効率を向上させる, 新規な正負サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T13:45:24Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Contextual Fine-to-Coarse Distillation for Coarse-grained Response
Selection in Open-Domain Conversations [48.046725390986595]
オープンドメイン会話における粗粒度応答選択のための文脈ファイン・ツー・コアス(CFC)蒸留モデルを提案する。
提案モデルの性能を評価するため,RedditコメントダンプとTwitterコーパスに基づく2つの新しいデータセットを構築した。
論文 参考訳(メタデータ) (2021-09-24T08:22:35Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - On Single and Multiple Representations in Dense Passage Retrieval [30.303705563808386]
単一の表現と複数の表現の2つの密度の高い検索ファミリが明らかになってきた。
本稿では,各手法が互いにw.r.t,w.r.t,BM25ベースラインをそれぞれ実行している状況について,それらの比較効果を直接研究する。
また、複数の表現は、BM25や定義クエリにとって最も難しいクエリに対して、単一の表現よりも改善されていることを示す。
論文 参考訳(メタデータ) (2021-08-13T15:01:53Z) - Joint Passage Ranking for Diverse Multi-Answer Retrieval [56.43443577137929]
質問に対する複数の異なる回答をカバーするために、パスの取得を必要とする探索不足の問題であるマルチアンサー検索について検討する。
モデルが別の有効な答えを逃す費用で同じ答えを含む通路を繰り返すべきではないので、このタスクは、検索された通路の共同モデリングを必要とします。
本稿では,再順位に着目したジョイントパス検索モデルであるJPRを紹介する。
回収された通路の合同確率をモデル化するために、JPRは、新しい訓練および復号アルゴリズムを備えた通路のシーケンスを選択する自動回帰リタイナを利用する。
論文 参考訳(メタデータ) (2021-04-17T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。