論文の概要: Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification
- arxiv url: http://arxiv.org/abs/2212.05276v1
- Date: Sat, 10 Dec 2022 11:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:02:10.256632
- Title: Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification
- Title(参考訳): ファクト検証のための自然論理誘導型自己回帰マルチホップ文書検索
- Authors: Rami Aly and Andreas Vlachos
- Abstract要約: マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
- 参考スコア(独自算出の注目度): 21.04611844009438
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A key component of fact verification is thevevidence retrieval, often from
multiple documents. Recent approaches use dense representations and condition
the retrieval of each document on the previously retrieved ones. The latter
step is performed over all the documents in the collection, requiring storing
their dense representations in an index, thus incurring a high memory
footprint. An alternative paradigm is retrieve-and-rerank, where documents are
retrieved using methods such as BM25, their sentences are reranked, and further
documents are retrieved conditioned on these sentences, reducing the memory
requirements. However, such approaches can be brittle as they rely on
heuristics and assume hyperlinks between documents. We propose a novel
retrieve-and-rerank method for multi-hop retrieval, that consists of a
retriever that jointly scores documents in the knowledge source and sentences
from previously retrieved documents using an autoregressive formulation and is
guided by a proof system based on natural logic that dynamically terminates the
retrieval process if the evidence is deemed sufficient. This method is
competitive with current state-of-the-art methods on FEVER, HoVer and
FEVEROUS-S, while using $5$ to $10$ times less memory than competing systems.
Evaluation on an adversarial dataset indicates improved stability of our
approach compared to commonly deployed threshold-based methods. Finally, the
proof system helps humans predict model decisions correctly more often than
using the evidence alone.
- Abstract(参考訳): 事実検証の鍵となる要素は、しばしば複数の文書から証拠検索である。
最近の手法では、より密集した表現と、以前検索した文書の検索条件を用いる。
後者のステップはコレクション内のすべてのドキュメント上で実行され、密度の高い表現をインデックスに格納する必要があるため、メモリフットプリントが高い。
別のパラダイムとして、BM25のような方法で文書を検索し、それらの文を再参照し、さらに文書をこれらの文で条件付きで検索することで、メモリ要求を減らします。
しかし、そのようなアプローチはヒューリスティックに頼り、文書間のハイパーリンクを仮定するため、脆弱である。
自己回帰的定式化を用いて, 知識ソース内の文書と, 予め検索した文書からの文を共同でスコア付けし, 証拠が十分と判断された場合, 検索プロセスを動的に終了させる自然論理に基づく証明システムにより案内する検索者からなる, マルチホップ検索のための新しい検索・リランク法を提案する。
この方法は、FEVER、HoVer、FEVEROUS-Sの現在の最先端の手法と競合し、競合するシステムに比べて5ドルから10ドル安いメモリを使用する。
対戦型データセットの評価は, 一般的に展開されるしきい値に基づく手法と比較して, アプローチの安定性が向上したことを示している。
最後に、証明システムは、証拠のみを使用するよりも、モデル決定を正しく予測するのに役立つ。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-11-14T07:41:48Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Variational Learning for Unsupervised Knowledge Grounded Dialogs [6.761874595503588]
知識基底ダイアログの最近の手法は,外部文書からの情報を取り入れて応答を生成する。
我々は上記の手法に対する変分的アプローチを開発し、代わりにエビデンスローバウンド(ELBO)を最大化する。
我々の知識を最大限に活用するために、我々は、オープンスケールの教師なし知識ベースダイアログシステムに変分訓練を適用した最初の人物である。
論文 参考訳(メタデータ) (2021-11-23T13:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。