論文の概要: AraStance: A Multi-Country and Multi-Domain Dataset of Arabic Stance
Detection for Fact Checking
- arxiv url: http://arxiv.org/abs/2104.13559v1
- Date: Wed, 28 Apr 2021 03:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 19:57:14.554659
- Title: AraStance: A Multi-Country and Multi-Domain Dataset of Arabic Stance
Detection for Fact Checking
- Title(参考訳): AraStance: ファクトチェックのためのアラビアスタンス検出のためのマルチカウンタとマルチドメインデータセット
- Authors: Tariq Alhindi, Amal Alabdulkarim, Ali Alshehri, Muhammad Abdul-Mageed
and Preslav Nakov
- Abstract要約: 我々は、さまざまなソースから910のクレームの新しいアラビアスタンス検出データセット(AraStance)を提示します。
AraStanceは、複数のドメイン(例えば、政治、スポーツ、健康)といくつかのアラブ諸国からの虚偽および真の主張をカバーしています。
私たちの最高のモデルは、85%の精度と78%のマクロF1スコアを達成し、改善の余地を残します。
- 参考スコア(独自算出の注目度): 19.962693437515753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the continuing spread of misinformation and disinformation online, it is
of increasing importance to develop combating mechanisms at scale in the form
of automated systems that support multiple languages. One task of interest is
claim veracity prediction, which can be addressed using stance detection with
respect to relevant documents retrieved online. To this end, we present our new
Arabic Stance Detection dataset (AraStance) of 910 claims from a diverse set of
sources comprising three fact-checking websites and one news website. AraStance
covers false and true claims from multiple domains (e.g., politics, sports,
health) and several Arab countries, and it is wellbalanced between related and
unrelated documents with respect to the claims. We benchmark AraStance, along
with two other stance detection datasets, using a number of BERTbased models.
Our best model achieves an accuracy of 85% and a macro F1 score of 78%, which
leaves room for improvement and reflects the challenging nature of AraStance
and the task of stance detection in general.
- Abstract(参考訳): オンライン上の偽情報や偽情報の拡散が続く中、複数の言語をサポートする自動システムという形で大規模に戦闘機構を開発することが重要性を増している。
1つの課題はクレームの正確性予測であり、オンラインで検索された関連文書に対するスタンス検出を用いて対処することができる。
そこで本研究では,3つのファクトチェックサイトと1つのニュースサイトからなる多種多様な情報源から,新たなアラビアスタンス検出データセット(AraStance)を提示する。
アラスタンスは複数のドメイン(例えば、政治、スポーツ、健康)といくつかのアラブ諸国からの虚偽の主張と真偽の主張をカバーしており、その主張に関して関連文書と無関係の文書との間にバランスが取れている。
AraStanceと他の2つのスタンス検出データセットを、BERTベースのモデルを使ってベンチマークします。
我々の最善のモデルは85%の精度と78%のマクロf1スコアを達成し、改善の余地を残し、悲惨なアラスタンスの性質と一般的なスタンス検出の課題を反映している。
関連論文リスト
- IAI Group at CheckThat! 2024: Transformer Models and Data Augmentation for Checkworthy Claim Detection [1.3686993145787067]
本稿では,IAIグループによるクレームの自動チェックハーネス評価への参加について述べる。
このタスクには、英語、オランダ語、アラビア語の政治討論やTwitterのデータで、チェック価値のあるクレームを自動的に検出することが含まれる。
我々は、様々な事前学習された生成デコーダとエンコーダ変換モデルを利用し、少数ショットチェーンオブ思考推論のような手法を用いる。
論文 参考訳(メタデータ) (2024-08-02T08:59:09Z) - Claim Detection for Automated Fact-checking: A Survey on Monolingual, Multilingual and Cross-Lingual Research [7.242609314791262]
本稿では,現状の多言語クレーム検出研究を,問題の3つの重要な要因,妥当性,優先性,類似性に分類する。
本稿では,既存の多言語データセットの概要と課題について概説し,今後の発展の可能性を提案する。
論文 参考訳(メタデータ) (2024-01-22T14:17:03Z) - Breaking Language Barriers with MMTweets: Advancing Cross-Lingual Debunked Narrative Retrieval for Fact-Checking [5.880794128275313]
言語横断的な物語検索は未検討の問題である。
本研究は, 言語間分離された物語検索を導入し, (i)多言語誤報ツイート(MMTweets)を作成することにより, この研究ギャップに対処する。
MMTweetsは、言語間のペア、画像、人間のアノテーション、きめ細かいラベルを特徴としている。
MMTweetsは言語横断的な物語検索の課題を示し,検索モデルの改善領域を強調している。
論文 参考訳(メタデータ) (2023-08-10T16:33:17Z) - Automated stance detection in complex topics and small languages: the
challenging case of immigration in polarizing news media [0.0]
本稿では,大規模言語モデルによる自動姿勢検出への適用性について検討する。
形態学的に複雑で、低資源の言語であり、社会文化的に複雑な話題である移民を含んでいる。
このケースでアプローチがうまくいけば、要求の少ないシナリオでも同じように、あるいはより良く実行されることが期待できる。
論文 参考訳(メタデータ) (2023-05-22T13:56:35Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking [55.75590135151682]
CHEFは、10万件の現実世界のクレームに関する最初のChenese EvidenceベースのFact-checkingデータセットである。
このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから取得した注釈付きの証拠を提供する。
論文 参考訳(メタデータ) (2022-06-06T09:11:03Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。