論文の概要: Stanceosaurus: Classifying Stance Towards Multilingual Misinformation
- arxiv url: http://arxiv.org/abs/2210.15954v1
- Date: Fri, 28 Oct 2022 07:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:07:51.082496
- Title: Stanceosaurus: Classifying Stance Towards Multilingual Misinformation
- Title(参考訳): ステンソサウルス:多言語誤報へのスタンス分類
- Authors: Jonathan Zheng, Ashutosh Baheti, Tarek Naous, Wei Xu, and Alan Ritter
- Abstract要約: 私たちは、英語、ヒンディー語、アラビア語で28,033のツイートからなる新しいコーパスであるStanceosaurusを紹介します。
ステンソサウルスの主張は、様々な地理的地域や文化をカバーする15の事実検査資料に由来する。
我々は,RumourEval 2019データを用いて,Stanceosaurusのドメイン適応手法を用いて,Stanceosaurusの性能を向上させる方法を示す。
- 参考スコア(独自算出の注目度): 15.669797533028804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Stanceosaurus, a new corpus of 28,033 tweets in English, Hindi,
and Arabic annotated with stance towards 251 misinformation claims. As far as
we are aware, it is the largest corpus annotated with stance towards
misinformation claims. The claims in Stanceosaurus originate from 15
fact-checking sources that cover diverse geographical regions and cultures.
Unlike existing stance datasets, we introduce a more fine-grained 5-class
labeling strategy with additional subcategories to distinguish implicit stance.
Pre-trained transformer-based stance classifiers that are fine-tuned on our
corpus show good generalization on unseen claims and regional claims from
countries outside the training data. Cross-lingual experiments demonstrate
Stanceosaurus' capability of training multi-lingual models, achieving 53.1 F1
on Hindi and 50.4 F1 on Arabic without any target-language fine-tuning.
Finally, we show how a domain adaptation method can be used to improve
performance on Stanceosaurus using additional RumourEval-2019 data. We make
Stanceosaurus publicly available to the research community and hope it will
encourage further work on misinformation identification across languages and
cultures.
- Abstract(参考訳): 英語、ヒンディー語、アラビア語で28,033ツイートからなる新しいコーパスとして、251の誤情報クレームに対するスタンスを付けて紹介する。
われわれが認識している限り、誤情報請求に対する姿勢を示す最大のコーパスである。
ステンソサウルスの主張は、様々な地理的地域や文化をカバーする15の事実検査資料に由来する。
既存のスタンスデータセットとは異なり、暗黙のスタンスを区別するためのサブカテゴリを追加して、よりきめ細かい5クラスラベル戦略を導入します。
我々のコーパスに微調整された事前訓練されたトランスフォーマーベースの姿勢分類器は、トレーニングデータ以外の国からの未確認のクレームと地域クレームを良好に一般化している。
言語横断実験は、ステンソサウルスの多言語モデルの訓練能力を示し、ヒンディー語では53.1 F1、アラビア語では50.4 F1を達成した。
最後に,新たなRumourEval-2019データを用いて,Stanceosaurusの性能向上にドメイン適応法を用いる方法を示す。
stanceosaurusを研究コミュニティに公開し、言語や文化にまたがる誤情報の識別に関するさらなる取り組みを促すことを願っています。
関連論文リスト
- Stanceosaurus 2.0: Classifying Stance Towards Russian and Spanish
Misinformation [19.056750467527934]
Stanceosaurus corpusは、Twitterから抽出された高品質で注釈付き5方向の姿勢データを提供するように設計されている。
Stanceosaurus 2.0のイテレーションでは、このフレームワークをロシア語とスペイン語に拡張しています。
論文 参考訳(メタデータ) (2024-02-06T02:39:59Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - NollySenti: Leveraging Transfer Learning and Machine Translation for
Nigerian Movie Sentiment Classification [10.18858070640917]
アフリカには2000以上の先住民族の言語があるが、データセットが不足しているため、NLPの研究では不足している。
私たちは、ナイジェリアで広く話されている5つの言語(英語、ハウサ語、イグボ語、ナイジェリア・ピジン語、ヨルバ語)のノリーウッド映画レビューに基づいて、新しいデータセット、NollySentiを作成しました。
論文 参考訳(メタデータ) (2023-05-18T13:38:36Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - DiS-ReX: A Multilingual Dataset for Distantly Supervised Relation
Extraction [15.649929244635269]
これらの問題を緩和する新しいデータセットであるDiS-ReXを提案する。
私たちのデータセットには150万以上の文があり、36の関連クラスを持つ4つの言語にまたがっている。
また,mBERTを用いて文を符号化し,多言語DS-REのベンチマーク結果を提供する。
論文 参考訳(メタデータ) (2021-04-17T22:44:38Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。