論文の概要: Self-Supervised Claim Identification for Automated Fact Checking
- arxiv url: http://arxiv.org/abs/2102.02335v1
- Date: Wed, 3 Feb 2021 23:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:44:40.238295
- Title: Self-Supervised Claim Identification for Automated Fact Checking
- Title(参考訳): 自動ファクトチェックのための自己監督クレーム同定
- Authors: Archita Pathak, Mohammad Abuzar Shaikh, Rohini Srihari
- Abstract要約: フェイクニュース記事中の「価値ある」文を識別するための,注目に基づく新規な自己教師型アプローチを提案する。
我々は,この作業に注目するメカニズムを用いて,見出しと内容の「近さ」を活用する。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel, attention-based self-supervised approach to identify
"claim-worthy" sentences in a fake news article, an important first step in
automated fact-checking. We leverage "aboutness" of headline and content using
attention mechanism for this task. The identified claims can be used for
downstream task of claim verification for which we are releasing a benchmark
dataset of manually selected compelling articles with veracity labels and
associated evidence. This work goes beyond stylistic analysis to identifying
content that influences reader belief. Experiments with three datasets show the
strength of our model. Data and code available at
https://github.com/architapathak/Self-Supervised-ClaimIdentification
- Abstract(参考訳): ファクトチェックの自動化の第一歩として,偽ニュース記事中の「主張に値する」文を識別するための,注意に基づく新しい自己教師付きアプローチを提案する。
本課題には注意機構を用いた見出しとコンテンツの「関係性」を活用する。
特定されたクレームは、手動で選択した説得力のある記事と関連する証拠のベンチマークデータセットをリリースする、クレーム検証の下流タスクに使用することができる。
この研究は、スタイル分析を超えて、読者の信念に影響を与えるコンテンツを識別します。
3つのデータセットを用いた実験は、モデルの強みを示しています。
https://github.com/architapathak/Self-Supervised-ClaimIdentificationで利用可能なデータとコード
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - CAMELL: Confidence-based Acquisition Model for Efficient Self-supervised
Active Learning with Label Validation [6.918298428336528]
監視されたニューラルアプローチは、大きく、細心の注意を払って注釈付けされたデータセットに依存しているため妨げられる。
逐次マルチ出力問題に適したプールベースのアクティブラーニングフレームワークである textbfCAMELL を提案する。
論文 参考訳(メタデータ) (2023-10-13T08:19:31Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - Empowering the Fact-checkers! Automatic Identification of Claim Spans on
Twitter [25.944789217337338]
Claim Span Identification (CSI) は、投稿に存在するクレーム価値(ミス)情報スニペットを自動的に識別し、抽出するツールである。
トークンレベルのクレームを7.5k以上のツイートに分散した大規模TwitterコーパスであるCURTを提案する。
我々は、RoBERTaのアダプタベースのバリエーションであるDABERTaでデータセットをベンチマークする。
論文 参考訳(メタデータ) (2022-10-10T14:08:46Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Assessing Effectiveness of Using Internal Signals for Check-Worthy Claim
Identification in Unlabeled Data for Automated Fact-Checking [6.193231258199234]
本稿では,偽ニュース記事からチェック価値のあるクレーム文を特定する手法について検討する。
我々は2つの内部監督信号(見出しと抽象的な要約)を利用して文をランク付けする。
見出しは、ファクトチェックのWebサイトがクレームを記述する方法とよく似ているが、要約ベースのパイプラインは、エンドツーエンドのファクトチェックシステムにとって最も有望である。
論文 参考訳(メタデータ) (2021-11-02T16:17:20Z) - AutoTriggER: Label-Efficient and Robust Named Entity Recognition with
Auxiliary Trigger Extraction [54.20039200180071]
我々は,エンティティトリガの自動生成と活用によるNER性能向上のための新しいフレームワークを提案する。
筆者らのフレームワークは,ポストホックな説明を活用して合理的な知識を生成し,埋め込み手法を用いてモデルの事前知識を強化する。
AutoTriggERは強力なラベル効率を示し、目に見えないエンティティを一般化し、RoBERTa-CRFベースラインを平均0.5F1ポイント上回る性能を持つ。
論文 参考訳(メタデータ) (2021-09-10T08:11:56Z) - ReSCo-CC: Unsupervised Identification of Key Disinformation Sentences [3.7405995078130148]
本稿では,信頼できない文書に含まれる重要な偽情報を含む文を識別する新規な教師なしタスクを提案する。
そこで我々は,まず,タスク用に設計された特徴空間内に文を埋め込むことから始まる,3段階の統計的NLPソリューションを設計する。
本手法は, コア情報の同定を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2020-10-21T08:53:36Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。