論文の概要: FlashCheck: Exploration of Efficient Evidence Retrieval for Fast Fact-Checking
- arxiv url: http://arxiv.org/abs/2502.05803v1
- Date: Sun, 09 Feb 2025 08:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:03.447071
- Title: FlashCheck: Exploration of Efficient Evidence Retrieval for Fast Fact-Checking
- Title(参考訳): FlashCheck: 高速Fact-Checkingのための効率的なエビデンス検索
- Authors: Kevin Nanekhan, Venktesh V, Erik Martin, Henrik Vatndal, Vinay Setty, Avishek Anand,
- Abstract要約: ファクトチェックの自動化は,誤報をリアルタイムで,情報源で効果的に対処するために不可欠である。
既存の研究は主に、大規模なデータ収集からの証拠検索ではなく、事実検証の部分に焦点を当てている。
本稿では,ウィキペディアのような大規模コレクションからの簡潔な事実文の集合を索引付けして,事実チェックパイプラインの検索フェーズを強化する手法について検討する。
- 参考スコア(独自算出の注目度): 4.641328389125911
- License:
- Abstract: The advances in digital tools have led to the rampant spread of misinformation. While fact-checking aims to combat this, manual fact-checking is cumbersome and not scalable. It is essential for automated fact-checking to be efficient for aiding in combating misinformation in real-time and at the source. Fact-checking pipelines primarily comprise a knowledge retrieval component which extracts relevant knowledge to fact-check a claim from large knowledge sources like Wikipedia and a verification component. The existing works primarily focus on the fact-verification part rather than evidence retrieval from large data collections, which often face scalability issues for practical applications such as live fact-checking. In this study, we address this gap by exploring various methods for indexing a succinct set of factual statements from large collections like Wikipedia to enhance the retrieval phase of the fact-checking pipeline. We also explore the impact of vector quantization to further improve the efficiency of pipelines that employ dense retrieval approaches for first-stage retrieval. We study the efficiency and effectiveness of the approaches on fact-checking datasets such as HoVer and WiCE, leveraging Wikipedia as the knowledge source. We also evaluate the real-world utility of the efficient retrieval approaches by fact-checking 2024 presidential debate and also open source the collection of claims with corresponding labels identified in the debate. Through a combination of indexed facts together with Dense retrieval and Index compression, we achieve up to a 10.0x speedup on CPUs and more than a 20.0x speedup on GPUs compared to the classical fact-checking pipelines over large collections.
- Abstract(参考訳): デジタルツールの進歩は、誤情報の普及に繋がった。
事実チェックは、これと戦うことを目的としているが、手動の事実チェックは面倒で、スケーラブルではない。
ファクトチェックの自動化は、誤情報をリアルタイムで情報源でリアルタイムで戦うのを支援するのに有効である。
ファクトチェックパイプラインは、主に知識検索コンポーネントで構成されており、ウィキペディアのような大規模な知識ソースと検証コンポーネントからクレームをファクトチェックするために関連する知識を抽出する。
既存の研究は主に、大規模なデータ収集からの証拠検索ではなく、事実検証に重点を置いている。
本研究では,ウィキペディアのような大規模コレクションからの簡潔な事実文の集合を索引付けして,事実チェックパイプラインの検索フェーズを強化することで,このギャップに対処する。
また,ベクトル量子化の影響について検討し,第1段階の探索に高密度な探索手法を用いるパイプラインの効率を向上する。
本研究では,知識源としてウィキペディアを活用することで,HoVerやWiCEなどのファクトチェックデータセットに対するアプローチの有効性と有効性を検討する。
また,2024年の大統領討論を事実チェックすることで,効率的な検索手法の現実的有用性を評価するとともに,議論で特定されたラベルによるクレームの収集をオープンソース化する。
インデックス化された事実とDense検索とインデックス圧縮を組み合わせることで、CPU上で最大10.0倍のスピードアップを実現し、GPU上では20.0倍以上のスピードアップを実現した。
関連論文リスト
- Improve Dense Passage Retrieval with Entailment Tuning [22.39221206192245]
検索システムの鍵となるのは、クエリとパスペアの関連スコアを計算することである。
我々は、NLIタスクにおけるエンテーメントの概念と、関連性の主要なクラスが一致していることを観察した。
我々は,高密度レトリバーの埋め込みを改善するために,エンテーメントチューニングと呼ばれる手法を設計する。
論文 参考訳(メタデータ) (2024-10-21T09:18:30Z) - FIRE: Fact-checking with Iterative Retrieval and Verification [63.67320352038525]
FIREはエビデンス検索とクレーム検証を反復的に統合する新しいフレームワークである。
大きな言語モデル(LLM)のコストを平均7.6倍、検索コストを16.5倍削減しながら、パフォーマンスが若干向上している。
これらの結果から,FIREは大規模ファクトチェック業務における適用を約束していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-17T06:44:18Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Retrieval Augmented Fact Verification by Synthesizing Contrastive Arguments [23.639378586798884]
コントラスト引数の合成による検索拡張現実事実検証を提案する。
提案手法は,関連文書を証拠として効果的に検索し,様々な視点から議論を評価する。
RAFTS は GPT 法よりはるかに小さい 7B LLM で優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-06-14T08:13:34Z) - FactGenius: Combining Zero-Shot Prompting and Fuzzy Relation Mining to Improve Fact Verification with Knowledge Graphs [0.0]
FactGeniusは,大規模言語モデルのゼロショットプロンプトと知識グラフ上のファジィテキストマッチングを組み合わせることで,ファクトチェックを強化する新しい手法である。
事実検証のベンチマークデータセットであるFactKG上でのFactGeniusの評価は、既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-03T13:24:37Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Complex Claim Verification with Evidence Retrieved in the Wild [73.19998942259073]
Webから生の証拠を取り出すことによって,実世界のクレームをチェックするための,最初の完全自動化パイプラインを提示する。
私たちのパイプラインには,クレーム分解,生文書検索,きめ細かい証拠検索,クレーム中心の要約,正確性判定という5つのコンポーネントが含まれています。
論文 参考訳(メタデータ) (2023-05-19T17:49:19Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - DialFact: A Benchmark for Fact-Checking in Dialogue [56.63709206232572]
われわれはDialFactという22,245の注釈付き会話クレームのベンチマークデータセットを構築し、ウィキペディアの証拠と組み合わせた。
FEVERのような非対話データでトレーニングされた既存のファクトチェックモデルは、我々のタスクでうまく機能しないことがわかった。
本稿では,対話におけるファクトチェック性能を効果的に向上する,シンプルなデータ効率のソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-15T17:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。