論文の概要: SCRum-9: Multilingual Stance Classification over Rumours on Social Media
- arxiv url: http://arxiv.org/abs/2505.18916v2
- Date: Wed, 17 Sep 2025 14:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 14:28:51.794593
- Title: SCRum-9: Multilingual Stance Classification over Rumours on Social Media
- Title(参考訳): SCRum-9:Rumoursによるソーシャルメディア上の多言語スタンス分類
- Authors: Yue Li, Jake Vasilakes, Zhixue Zhao, Carolina Scarton,
- Abstract要約: SCRum-9は、Xから7,516のツイートを含む9つの言語でRumour分析のための最大のデータセットである。
本稿では,多言語合成データを用いた姿勢分類手法を提案する。
SCRum-9は研究コミュニティに公開され、ソーシャルメディア上の誤解を招く物語の多言語分析のさらなる研究を促進する可能性がある。
- 参考スコア(独自算出の注目度): 15.412870757706473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SCRum-9, the largest multilingual Stance Classification dataset for Rumour analysis in 9 languages, containing 7,516 tweets from X. SCRum-9 goes beyond existing stance classification datasets by covering more languages, linking examples to more fact-checked claims (2.1k), and including confidence-related annotations from multiple annotators to account for intra- and inter-annotator variability. Annotations were made by at least two native speakers per language, totalling more than 405 hours of annotation and 8,150 dollars in compensation. Further, SCRum-9 is used to benchmark five large language models (LLMs) and two multilingual masked language models (MLMs) in In-Context Learning (ICL) and fine-tuning setups. This paper also innovates by exploring the use of multilingual synthetic data for rumour stance classification, showing that even LLMs with weak ICL performance can produce valuable synthetic data for fine-tuning small MLMs, enabling them to achieve higher performance than zero-shot ICL in LLMs. Finally, we examine the relationship between model predictions and human uncertainty on ambiguous cases finding that model predictions often match the second-choice labels assigned by annotators, rather than diverging entirely from human judgments. SCRum-9 is publicly released to the research community with potential to foster further research on multilingual analysis of misleading narratives on social media.
- Abstract(参考訳): SCRum-9は、Xから7,516のつぶやきを含む9言語で最大の多言語スタンス分類データセットであるSCRum-9を紹介する。
アノテーションは言語毎に少なくとも2つのネイティブ話者によって作成され、合計405時間以上のアノテーションと8,150ドルの補償が行われた。
さらに、SCRum-9は5つの大きな言語モデル(LLM)と2つの多言語マスキング言語モデル(MLM)をインコンテキスト学習(ICL)と微調整設定でベンチマークするために使用される。
また,マルチリンガル合成データを用いた音像定位分類法について検討し,ICL性能の弱いLLMでも小型MLMの微調整に有用な合成データが得られることを示した。
最後に,アノテータがアノテータに割り当てられた第2選択ラベルとモデル予測が一致することが,不明瞭なケースにおけるモデル予測と人間の不確実性との関係について検討した。
SCRum-9は研究コミュニティに公開され、ソーシャルメディア上の誤解を招く物語の多言語分析のさらなる研究を促進する可能性がある。
関連論文リスト
- Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings [8.361945776819528]
本研究は,Tigrinyaソーシャルメディアにおける乱用言語検出のための大規模人手アノテーション付きベンチマークデータセットを提案する。
このデータセットは、9人のネイティブスピーカーが注釈付けした13,717のYouTubeコメントで構成され、51チャンネルで合計12億ビューの7,373のビデオから集められている。
実験の結果,小型で特殊なマルチタスクモデルは,低リソース環境での現在のフロンティアモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-17T18:52:47Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64
Languages [17.055109973224265]
SPARROWは言語間社会プラグマティックな意味(SM)理解に特化して設計された広範囲なベンチマークである。
SPARROWは、6つの主要カテゴリ(例えば、反社会的言語検出、感情認識)にわたる13のタスクタイプをカバーする169のデータセットで構成されている。
本研究では,SPARROWにおける多言語事前訓練型言語モデル(mT5など)と命令調整型LLM(BLOOMZ, ChatGPTなど)の性能を,微調整,ゼロショット,少数ショット学習により評価する。
論文 参考訳(メタデータ) (2023-10-23T04:22:44Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery [1.9215779751499527]
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。
学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。
我々は、現在のデータセットを深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
論文 参考訳(メタデータ) (2020-07-02T19:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。