論文の概要: Stanceosaurus 2.0: Classifying Stance Towards Russian and Spanish
Misinformation
- arxiv url: http://arxiv.org/abs/2402.03642v1
- Date: Tue, 6 Feb 2024 02:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:55:34.902588
- Title: Stanceosaurus 2.0: Classifying Stance Towards Russian and Spanish
Misinformation
- Title(参考訳): Stanceosaurus 2.0: ロシアとスペインの誤報へのスタンス分類
- Authors: Anton Lavrouk, Ian Ligon, Tarek Naous, Jonathan Zheng, Alan Ritter,
Wei Xu
- Abstract要約: Stanceosaurus corpusは、Twitterから抽出された高品質で注釈付き5方向の姿勢データを提供するように設計されている。
Stanceosaurus 2.0のイテレーションでは、このフレームワークをロシア語とスペイン語に拡張しています。
- 参考スコア(独自算出の注目度): 19.056750467527934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Stanceosaurus corpus (Zheng et al., 2022) was designed to provide
high-quality, annotated, 5-way stance data extracted from Twitter, suitable for
analyzing cross-cultural and cross-lingual misinformation. In the Stanceosaurus
2.0 iteration, we extend this framework to encompass Russian and Spanish. The
former is of current significance due to prevalent misinformation amid
escalating tensions with the West and the violent incursion into Ukraine. The
latter, meanwhile, represents an enormous community that has been largely
overlooked on major social media platforms. By incorporating an additional
3,874 Spanish and Russian tweets over 41 misinformation claims, our objective
is to support research focused on these issues. To demonstrate the value of
this data, we employed zero-shot cross-lingual transfer on multilingual BERT,
yielding results on par with the initial Stanceosaurus study with a macro F1
score of 43 for both languages. This underlines the viability of stance
classification as an effective tool for identifying multicultural
misinformation.
- Abstract(参考訳): スタンテオサウルス・コーパス(zheng et al., 2022)は、twitterから抽出された高品質で注釈付き、5方向の姿勢データを提供し、文化横断的および言語横断的誤情報の分析に適するように設計された。
Stanceosaurus 2.0イテレーションでは、このフレームワークをロシア語とスペイン語に拡張しています。
前者は西側諸国との緊張が激化し、ウクライナへの激しい侵入が相次いだため、現在の重要性がある。
一方、後者は巨大なコミュニティであり、主要なソーシャルメディアプラットフォームでは見過ごされてきた。
41件以上の偽情報のツイートを3,874件追加することで、これらの問題に焦点を当てた研究を支援することを目標としている。
このデータの価値を実証するため,多言語BERTのゼロショット交叉移動を用いて,両言語で43のマクロF1スコアを持つStanceosaurusの初期研究と同等の結果を得た。
これは多文化的誤情報を識別するための有効なツールとしてスタンス分類の有効性を強調する。
関連論文リスト
- Lost in Translation, Found in Spans: Identifying Claims in Multilingual
Social Media [40.26888469822391]
クレームスパン識別(CSI)は、ファクトチェックパイプラインの重要なステップである。
ジャーナリストや人間のファクトチェッカーにとって重要な問題だが、いまだに過小評価されている問題である。
我々は、多くのソーシャルメディアプラットフォームから5つのインド語と英語で収集された7Kの現実世界のクレームからなる、新しいデータセットX-CLAIMを作成します。
論文 参考訳(メタデータ) (2023-10-27T15:28:12Z) - Lost in Translation -- Multilingual Misinformation and its Evolution [52.07628580627591]
本稿では,95言語にまたがる25万以上のファクトチェックの分析を通じて,多言語誤報の頻度とダイナミクスについて検討する。
誤報のクレームの大部分は1回だけ事実チェックされているが、21,000件以上のクレームに対応する11.7%は複数回チェックされている。
誤情報拡散のプロキシとしてファクトチェックを用いると、言語境界を越えて繰り返し主張する主張の33%が見つかる。
論文 参考訳(メタデータ) (2023-10-27T12:21:55Z) - Stanceosaurus: Classifying Stance Towards Multilingual Misinformation [15.669797533028804]
私たちは、英語、ヒンディー語、アラビア語で28,033のツイートからなる新しいコーパスであるStanceosaurusを紹介します。
ステンソサウルスの主張は、様々な地理的地域や文化をカバーする15の事実検査資料に由来する。
我々は,RumourEval 2019データを用いて,Stanceosaurusのドメイン適応手法を用いて,Stanceosaurusの性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2022-10-28T07:18:32Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Overcoming Catastrophic Forgetting in Zero-Shot Cross-Lingual Generation [48.80125962015044]
ラベル付きデータが英語でのみ利用可能である場合、対象言語で生成タスク(すなわち要約)を実行するという問題について検討する。
パラメータ効率の低い言語間での移動において、パラメータ効率の適応は標準的な微調整よりも向上することがわかった。
提案手法はさらなる品質向上を実現し,ロバストなゼロショット・クロスランガル生成が到達範囲内であることを示唆する。
論文 参考訳(メタデータ) (2022-05-25T10:41:34Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Cross-lingual COVID-19 Fake News Detection [54.125563009333995]
低リソース言語(中国語)における新型コロナウイルスの誤報を検出するための最初の試みは、高リソース言語(英語)における事実チェックされたニュースのみを用いて行われる。
そこで我々は、クロスランガルなニュースボディテキストを共同でエンコードし、ニュースコンテンツをキャプチャするCrossFakeというディープラーニングフレームワークを提案する。
実験結果から,クロスランガル環境下でのCrossFakeの有効性が示された。
論文 参考訳(メタデータ) (2021-10-13T04:44:02Z) - Multilingual Offensive Language Identification with Cross-lingual
Embeddings [20.53592812108394]
我々は、言語間コンテキストの単語埋め込みと伝達学習を適用して利用可能な英語データを利用して、少ないリソースを持つ言語での予測を行う。
我々はベンガル語、ヒンディー語、スペイン語の同値なデータを予測し、ベンガル語で0.8415 F1マクロ、ヒンディー語で0.8568 F1マクロ、スペイン語で0.7513 F1マクロを報告した。
論文 参考訳(メタデータ) (2020-10-11T19:17:24Z) - Cross-lingual Inductive Transfer to Detect Offensive Language [3.655021726150369]
XLM-RoBERTa (XLM-R) を用いたツイート中の攻撃的言語を特定するための言語間帰納的手法を提案する。
私たちのモデルは5つの言語すべてで競争力を発揮します。
論文 参考訳(メタデータ) (2020-07-07T20:10:31Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Multilingual Stance Detection: The Catalonia Independence Corpus [11.393603788068777]
スタンス検出は、特定のトピックやクレームに関するテキストの態度を決定することを目的としている。
IberEval 2018でリリースされたTW-10 Referendumデータセットは、カタルーニャとスペインでマルチリンガルなスタンスアノテートデータを提供するための以前の取り組みである。
本稿では,カタルーニャ語とスペイン語のTwitterにおけるスタンス検出のための多言語データセットを提案する。
論文 参考訳(メタデータ) (2020-03-31T18:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。