論文の概要: Harnessing Abstractive Summarization for Fact-Checked Claim Detection
- arxiv url: http://arxiv.org/abs/2209.04612v2
- Date: Wed, 14 Sep 2022 10:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 11:05:05.993174
- Title: Harnessing Abstractive Summarization for Fact-Checked Claim Detection
- Title(参考訳): Fact-Checked Claim 検出のためのハラスティング抽象要約法
- Authors: Varad Bhatnagar, Diptesh Kanojia, Kameswari Chebrolu
- Abstract要約: ソーシャルメディアプラットフォームは、反社会的要素の新たな戦場となり、誤った情報が選択の武器となっている。
この解決策は、ファクトチェックのライフサイクルを部分的に自動化し、高い認知を必要とするタスクに人間の時間を節約することにある、と私たちは信じています。
本稿では,抽象的な要約を用いたクェリを効率的に検出し,クェリを生成するワークフローを提案する。
- 参考スコア(独自算出の注目度): 8.49182897482236
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media platforms have become new battlegrounds for anti-social
elements, with misinformation being the weapon of choice. Fact-checking
organizations try to debunk as many claims as possible while staying true to
their journalistic processes but cannot cope with its rapid dissemination. We
believe that the solution lies in partial automation of the fact-checking life
cycle, saving human time for tasks which require high cognition. We propose a
new workflow for efficiently detecting previously fact-checked claims that uses
abstractive summarization to generate crisp queries. These queries can then be
executed on a general-purpose retrieval system associated with a collection of
previously fact-checked claims. We curate an abstractive text summarization
dataset comprising noisy claims from Twitter and their gold summaries. It is
shown that retrieval performance improves 2x by using popular out-of-the-box
summarization models and 3x by fine-tuning them on the accompanying dataset
compared to verbatim querying. Our approach achieves Recall@5 and MRR of 35%
and 0.3, compared to baseline values of 10% and 0.1, respectively. Our dataset,
code, and models are available publicly:
https://github.com/varadhbhatnagar/FC-Claim-Det/
- Abstract(参考訳): ソーシャルメディアプラットフォームは反社会的要素の新たな戦場となり、誤った情報が選択の武器となっている。
ファクトチェック組織は、報道プロセスに忠実でありながら、できるだけ多くの主張を否定しようとするが、その急速な普及には対処できない。
このソリューションは、事実チェックのライフサイクルを部分的に自動化し、高い認識を必要とするタスクに人間の時間を節約することにあると信じています。
本稿では,抽象的な要約を用いたクェリを効率的に検出するワークフローを提案する。
これらのクエリは、以前ファクトチェックされたクレームのコレクションに関連する汎用検索システム上で実行される。
我々は,Twitterとそのゴールドサマリーからのノイズの多いクレームを含む抽象テキスト要約データセットをキュレートする。
検索性能は,市販の要約モデルを用いて2倍,付随するデータセット上で3倍の微調整を行うことで2倍向上することを示した。
提案手法では,Recall@5 と MRR が 35% と 0.3 であり,ベースライン値は 10% と 0.1 である。
データセット、コード、モデルは公開されています。 https://github.com/varadhbhatnagar/FC-Claim-Det/
関連論文リスト
- FIRE: Fact-checking with Iterative Retrieval and Verification [63.67320352038525]
FIREはエビデンス検索とクレーム検証を反復的に統合する新しいフレームワークである。
大きな言語モデル(LLM)のコストを平均7.6倍、検索コストを16.5倍削減しながら、パフォーマンスが若干向上している。
これらの結果から,FIREは大規模ファクトチェック業務における適用を約束していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-17T06:44:18Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Correction with Backtracking Reduces Hallucination in Summarization [29.093092115901694]
抽象要約は、重要な要素を保存しながら簡潔なソースドキュメントの自然言語要約を生成することを目的としている。
近年の進歩にもかかわらず、神経文の要約モデルは幻覚に感受性があることが知られている。
本稿では,抽象的な要約における幻覚を低減するため,シンプルだが効率的な手法であるCoBaを紹介する。
論文 参考訳(メタデータ) (2023-10-24T20:48:11Z) - MythQA: Query-Based Large-Scale Check-Worthy Claim Detection through
Multi-Answer Open-Domain Question Answering [8.70509665552136]
チェック価値のあるクレーム検出は、下流のファクトチェックシステムや、チェックする人間の専門家に、もっともらしい誤情報を提供することを目的としている。
しかし、Twitterのような大規模情報ソースから直接、チェック価値のあるクレームを効率的に検出する方法は、まだ解明されていない。
我々は、クエリベースの大規模チェックアワークレーム検出のための矛盾するスタンスマイニングを含む、複数回答のオープンドメイン質問応答(QA)タスクであるMythQAを紹介する。
論文 参考訳(メタデータ) (2023-07-21T18:35:24Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Scalable Fact-checking with Human-in-the-Loop [17.1138216746642]
ファクトチェックを加速するために、同様のメッセージをグループ化し、それらを集約されたクレームにまとめることで、このギャップを埋める。
その結果,大規模かつ冗長なメッセージから代表的クレームを整理し,選択することで,ファクトチェックプロセスを高速化する可能性が示された。
論文 参考訳(メタデータ) (2021-09-22T19:19:59Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。