Fugu-MT 論文翻訳(概要): SCRum-9: Multilingual Stance Classification over Rumours on Social Media

論文の概要: SCRum-9: Multilingual Stance Classification over Rumours on Social Media

arxiv url: http://arxiv.org/abs/2505.18916v1
Date: Sun, 25 May 2025 00:50:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.749154
Title: SCRum-9: Multilingual Stance Classification over Rumours on Social Media
Title（参考訳）: SCRum-9:Rumoursによるソーシャルメディア上の多言語スタンス分類
Authors: Yue Li, Jake Vasilakes, Zhixue Zhao, Carolina Scarton,
Abstract要約: 我々は,Rumour Stance Classificationのための多言語データセットであるSCRum-9を紹介した。 SCRum-9は、より多くの言語(9)をカバーし、サンプルをよりファクトチェックされたクレーム(2.1k)にリンクし、複数のアノテーションからの複雑なアノテーションを含む、既存のスタンス分類データセットを越えている。
参考スコア（独自算出の注目度）: 11.125562026207227
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SCRum-9, a multilingual dataset for Rumour Stance Classification, containing 7,516 tweet-reply pairs from X. SCRum-9 goes beyond existing stance classification datasets by covering more languages (9), linking examples to more fact-checked claims (2.1k), and including complex annotations from multiple annotators to account for intra- and inter-annotator variability. Annotations were made by at least three native speakers per language, totalling around 405 hours of annotation and 8,150 dollars in compensation. Experiments on SCRum-9 show that it is a challenging benchmark for both state-of-the-art LLMs (e.g. Deepseek) as well as fine-tuned pre-trained models, motivating future work in this area.
Abstract（参考訳）: SCRum-9は、より多くの言語(9)をカバーし、サンプルをファクトチェックされたクレーム(2.1k)にリンクし、複数のアノテーションからの複雑なアノテーションを含み、アノテーション内およびアノテーション間の変動を考慮に入れます。アノテーションは言語毎に少なくとも3人のネイティブ話者によって作成され、合計で405時間のアノテーションと8,150ドルの補償が行われた。 SCRum-9の実験では、最先端のLLM(e.g.epseek)と微調整された事前訓練モデルの両方において、この領域における将来の作業の動機となる、挑戦的なベンチマークであることが示されている。

関連論文リスト

Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。 RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文参考訳（メタデータ） (2025-05-25T23:06:20Z)
A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings [8.361945776819528]
本研究は,Tigrinyaソーシャルメディアにおける乱用言語検出のための大規模人手アノテーション付きベンチマークデータセットを提案する。このデータセットは、9人のネイティブスピーカーが注釈付けした13,717のYouTubeコメントで構成され、51チャンネルで合計12億ビューの7,373のビデオから集められている。実験の結果,小型で特殊なマルチタスクモデルは,低リソース環境での現在のフロンティアモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-05-17T18:52:47Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64 Languages [17.055109973224265]
SPARROWは言語間社会プラグマティックな意味(SM)理解に特化して設計された広範囲なベンチマークである。 SPARROWは、6つの主要カテゴリ(例えば、反社会的言語検出、感情認識)にわたる13のタスクタイプをカバーする169のデータセットで構成されている。本研究では,SPARROWにおける多言語事前訓練型言語モデル(mT5など)と命令調整型LLM(BLOOMZ, ChatGPTなど)の性能を,微調整,ゼロショット,少数ショット学習により評価する。
論文参考訳（メタデータ） (2023-10-23T04:22:44Z)
Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文参考訳（メタデータ） (2023-05-15T06:24:45Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文参考訳（メタデータ） (2021-12-20T16:52:35Z)
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。は、アメリカ大陸の10の原住民の言語である。 XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。 XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文参考訳（メタデータ） (2021-04-18T05:32:28Z)
A Bayesian Multilingual Document Model for Zero-shot Topic Identification and Discovery [1.9215779751499527]
モデルは多言語シナリオへの BaySMM [Kesiraju et al 2020] の拡張である。学習した不確実性を線形分類器で伝達し、ゼロショットの言語間話題識別に役立てる。我々は、現在のデータセットを深く掘り下げることで、ゼロショット設定での言語間トピックの識別を再考する。
論文参考訳（メタデータ） (2020-07-02T19:55:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。