論文の概要: Empowering the Fact-checkers! Automatic Identification of Claim Spans on
Twitter
- arxiv url: http://arxiv.org/abs/2210.04710v2
- Date: Tue, 11 Oct 2022 12:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 11:09:45.470757
- Title: Empowering the Fact-checkers! Automatic Identification of Claim Spans on
Twitter
- Title(参考訳): ファクトチェックの強化!
Twitterにおけるクレームスパンの自動識別
- Authors: Megha Sundriyal, Atharva Kulkarni, Vaibhav Pulastya, Md Shad Akhtar,
Tanmoy Chakraborty
- Abstract要約: Claim Span Identification (CSI) は、投稿に存在するクレーム価値(ミス)情報スニペットを自動的に識別し、抽出するツールである。
トークンレベルのクレームを7.5k以上のツイートに分散した大規模TwitterコーパスであるCURTを提案する。
我々は、RoBERTaのアダプタベースのバリエーションであるDABERTaでデータセットをベンチマークする。
- 参考スコア(独自算出の注目度): 25.944789217337338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread diffusion of medical and political claims in the wake of
COVID-19 has led to a voluminous rise in misinformation and fake news. The
current vogue is to employ manual fact-checkers to efficiently classify and
verify such data to combat this avalanche of claim-ridden misinformation.
However, the rate of information dissemination is such that it vastly outpaces
the fact-checkers' strength. Therefore, to aid manual fact-checkers in
eliminating the superfluous content, it becomes imperative to automatically
identify and extract the snippets of claim-worthy (mis)information present in a
post. In this work, we introduce the novel task of Claim Span Identification
(CSI). We propose CURT, a large-scale Twitter corpus with token-level claim
spans on more than 7.5k tweets. Furthermore, along with the standard token
classification baselines, we benchmark our dataset with DABERTa, an
adapter-based variation of RoBERTa. The experimental results attest that
DABERTa outperforms the baseline systems across several evaluation metrics,
improving by about 1.5 points. We also report detailed error analysis to
validate the model's performance along with the ablation studies. Lastly, we
release our comprehensive span annotation guidelines for public use.
- Abstract(参考訳): 新型コロナウイルス(covid-19)の影響で医療や政治の主張が広まり、偽情報や偽ニュースが急増している。
現在の流行は、手作業によるファクトチェックを駆使して、そのデータを効率的に分類し、検証し、この不当な誤情報の雪崩と戦うことである。
しかし,情報の普及率は,ファクトチェッカーの力を大きく上回っている。
したがって、手動のファクトチェッカーによる過剰な内容の排除を支援するために、ポストに存在するクレーム価値(ミス)情報スニペットを自動的に識別して抽出することが必須となる。
本稿では,Crim Span Identification (CSI) の新たな課題を紹介する。
トークンレベルのクレームを7.5k以上のツイートに分散した大規模TwitterコーパスであるCURTを提案する。
さらに、標準トークン分類ベースラインとともに、RoBERTaのアダプタベースのバリエーションであるDABERTaを用いてデータセットをベンチマークする。
実験の結果、DABERTaはいくつかの評価指標でベースラインシステムを上回る性能を示し、約1.5ポイント改善した。
また,モデルの性能を検証するための詳細な誤差解析とアブレーション研究について報告する。
最後に、パブリック使用のための包括的スパンアノテーションガイドラインをリリースする。
関連論文リスト
- Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - PANACEA: An Automated Misinformation Detection System on COVID-19 [49.83321665982157]
PANACEAは、新型コロナウイルス関連の主張に関するWebベースの誤情報検出システムである。
事実チェックと噂検出という2つのモジュールがある。
論文 参考訳(メタデータ) (2023-02-28T21:53:48Z) - Machine Learning-based Automatic Annotation and Detection of COVID-19
Fake News [8.020736472947581]
新型コロナウイルス(COVID-19)は世界のあらゆる地域に影響を与えるが、感染の誤報はウイルスよりも速く移動した。
既存の作業は、拡散の触媒として働くボットの存在を無視する。
そこで本稿では,Twitterデータセット上で事実確認文をラベル付けする手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T13:55:59Z) - Assessing Effectiveness of Using Internal Signals for Check-Worthy Claim
Identification in Unlabeled Data for Automated Fact-Checking [6.193231258199234]
本稿では,偽ニュース記事からチェック価値のあるクレーム文を特定する手法について検討する。
我々は2つの内部監督信号(見出しと抽象的な要約)を利用して文をランク付けする。
見出しは、ファクトチェックのWebサイトがクレームを記述する方法とよく似ているが、要約ベースのパイプラインは、エンドツーエンドのファクトチェックシステムにとって最も有望である。
論文 参考訳(メタデータ) (2021-11-02T16:17:20Z) - FacTeR-Check: Semi-automated fact-checking through Semantic Similarity
and Natural Language Inference [61.068947982746224]
FacTeR-Checkは、ファクトチェックされた情報の検索、未確認のクレームの検証、ソーシャルメディア上での危険な情報の追跡を可能にする。
このアーキテクチャは、NLI19-SPと呼ばれる新しいデータセットを使って検証されている。
この結果から,各ベンチマークにおける最先端性能と,61種類のホアックスの時間経過に伴う進化の有用な解析結果が得られた。
論文 参考訳(メタデータ) (2021-10-27T15:44:54Z) - Zero-shot Fact Verification by Claim Generation [85.27523983027471]
我々は,堅牢な事実検証モデルをトレーニングするフレームワークであるQACGを開発した。
われわれは自動的に生成されたクレームを使って、Wikipediaのエビデンスからサポートしたり、反論したり、検証したりできる。
ゼロショットシナリオでは、QACGはRoBERTaモデルのF1を50%から77%に改善し、パフォーマンスは2K以上の手作業による例に相当する。
論文 参考訳(メタデータ) (2021-05-31T03:13:52Z) - Self-Supervised Claim Identification for Automated Fact Checking [2.578242050187029]
フェイクニュース記事中の「価値ある」文を識別するための,注目に基づく新規な自己教師型アプローチを提案する。
我々は,この作業に注目するメカニズムを用いて,見出しと内容の「近さ」を活用する。
論文 参考訳(メタデータ) (2021-02-03T23:37:09Z) - ArCOV19-Rumors: Arabic COVID-19 Twitter Dataset for Misinformation
Detection [6.688963029270579]
ArCOV19-Rumorsは、1月27日から2020年4月末までのクレームを含むツイートからなる誤情報検出のためのアラビア語のTwitterデータセットである。
本誌は138件の確認済みのクレームを、主に人気ファクトチェックサイトから収集し、それらのクレームに関連する9.4万件のツイートを特定した。
ツイートは、パンデミックで直面した主要な問題の一つである誤情報検出の研究を支援するために、正確さで手動で注釈付けされた。
論文 参考訳(メタデータ) (2020-10-17T11:21:40Z) - Too Many Claims to Fact-Check: Prioritizing Political Claims Based on
Check-Worthiness [1.2891210250935146]
本報告では, チェックの信頼性に基づいて, クレームの優先順位付けを行うモデルを提案する。
BERTモデルにはドメイン固有の議論の的となっているトピックや単語の埋め込みなどが追加されています。
論文 参考訳(メタデータ) (2020-04-17T10:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。