論文の概要: GERE: Generative Evidence Retrieval for Fact Verification
- arxiv url: http://arxiv.org/abs/2204.05511v2
- Date: Thu, 14 Apr 2022 08:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 11:46:19.625658
- Title: GERE: Generative Evidence Retrieval for Fact Verification
- Title(参考訳): GERE: ファクト検証のための生成的証拠検索
- Authors: Jiangui Chen, Ruqing Zhang, Jiafeng Guo, Yixing Fan, and Xueqi Cheng
- Abstract要約: 本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
- 参考スコア(独自算出の注目度): 57.78768817972026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fact verification (FV) is a challenging task which aims to verify a claim
using multiple evidential sentences from trustworthy corpora, e.g., Wikipedia.
Most existing approaches follow a three-step pipeline framework, including
document retrieval, sentence retrieval and claim verification. High-quality
evidences provided by the first two steps are the foundation of the effective
reasoning in the last step. Despite being important, high-quality evidences are
rarely studied by existing works for FV, which often adopt the off-the-shelf
models to retrieve relevant documents and sentences in an
"index-retrieve-then-rank" fashion. This classical approach has clear drawbacks
as follows: i) a large document index as well as a complicated search process
is required, leading to considerable memory and computational overhead; ii)
independent scoring paradigms fail to capture the interactions among documents
and sentences in ranking; iii) a fixed number of sentences are selected to form
the final evidence set. In this work, we propose GERE, the first system that
retrieves evidences in a generative fashion, i.e., generating the document
titles as well as evidence sentence identifiers. This enables us to mitigate
the aforementioned technical issues since: i) the memory and computational cost
is greatly reduced because the document index is eliminated and the heavy
ranking process is replaced by a light generative process; ii) the dependency
between documents and that between sentences could be captured via sequential
generation process; iii) the generative formulation allows us to dynamically
select a precise set of relevant evidences for each claim. The experimental
results on the FEVER dataset show that GERE achieves significant improvements
over the state-of-the-art baselines, with both time-efficiency and
memory-efficiency.
- Abstract(参考訳): Fact validation (FV) は、ウィキペディアのような信頼できるコーパスから複数の明らかな文を用いてクレームを検証することを目的とした課題である。
既存のアプローチのほとんどは、文書検索、文検索、クレーム検証を含む3段階のパイプラインフレームワークに従っている。
最初の2ステップによって提供される高品質な証拠は、最終段階における効果的な推論の基礎である。
重要であるにもかかわらず、高品質な証拠はfvの既存の作品によって研究されることはほとんどなく、それらはしばしばオフ・ザ・棚のモデルを採用し、関連する文書や文を「インデックス・レトリーブ・ザ・ランク」の方法で取り出す。
この古典的アプローチには、次のような明確な欠点がある。
一 大規模な文書インデックス及び複雑な検索プロセスが必要で、メモリ及び計算上のオーバーヘッドがかなり大きいこと。
二 独立スコアリングパラダイムは、ランキングにおける文書及び文間の相互作用を捉えない。
三 確定した文数を選択して最終証拠集合を形成すること。
本研究では,証明文の識別子だけでなく,文書のタイトルを生成する生成的手法で証拠を検索するシステムであるgereを提案する。
これにより、上記の技術的問題を緩和できます。
一 文書インデックスを廃止し、重格付け処理を軽量生成工程に置き換えたことにより、メモリ及び計算コストが大幅に削減される。
二 文書間の依存関係と文間の依存関係を、逐次生成により取得することができること。
三 生成的定式化により、各クレームに関する正確な証拠の集合を動的に選択することができる。
FEVERデータセットの実験結果は、GEREが時間効率とメモリ効率の両方で最先端のベースラインを大幅に改善したことを示している。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Give Me More Details: Improving Fact-Checking with Latent Retrieval [58.706972228039604]
証拠は、自動化された事実チェックにおいて重要な役割を果たす。
既存のファクトチェックシステムは、エビデンス文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。
資料から得られた全文を証拠として組み込んで,2つの豊富なデータセットを導入することを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:01:19Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Hierarchical Evidence Set Modeling for Automated Fact Extraction and
Verification [5.836068916903788]
階層的エビデンス・セット・モデリング(Heerarchical Evidence Set Modeling, HESM)は、エビデンス・セットを抽出し、サポート対象のクレームを検証するためのフレームワークである。
実験の結果,HESMは事実抽出とクレーム検証の7つの最先端手法より優れていた。
論文 参考訳(メタデータ) (2020-10-10T22:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。