論文の概要: Detection of Somali-written Fake News and Toxic Messages on the Social Media Using Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2503.18117v1
- Date: Sun, 23 Mar 2025 15:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:24.166115
- Title: Detection of Somali-written Fake News and Toxic Messages on the Social Media Using Transformer-based Language Models
- Title(参考訳): 変換言語モデルを用いたソーシャルメディア上のソマリ文字偽ニュースと有害メッセージの検出
- Authors: Muhidin A. Mohamed, Shuab D. Ahmed, Yahye A. Isse, Hanad M. Mohamed, Fuad M. Hassan, Houssein A. Assowe,
- Abstract要約: 本稿では,ソマリア語におけるこれらのギャップのいくつかを埋めるために,現在進行中の研究成果について述べる。
我々はトランスフォーマーに基づく単言語ソマリ言語モデル(SomBERTa)を開発した。
SomBERTaは、有害コンテンツ、フェイクニュース、ニューストピック分類データセットに基づいて微調整され、評価される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The fact that everyone with a social media account can create and share content, and the increasing public reliance on social media platforms as a news and information source bring about significant challenges such as misinformation, fake news, harmful content, etc. Although human content moderation may be useful to an extent and used by these platforms to flag posted materials, the use of AI models provides a more sustainable, scalable, and effective way to mitigate these harmful contents. However, low-resourced languages such as the Somali language face limitations in AI automation, including scarce annotated training datasets and lack of language models tailored to their unique linguistic characteristics. This paper presents part of our ongoing research work to bridge some of these gaps for the Somali language. In particular, we created two human-annotated social-media-sourced Somali datasets for two downstream applications, fake news \& toxicity classification, and developed a transformer-based monolingual Somali language model (named SomBERTa) -- the first of its kind to the best of our knowledge. SomBERTa is then fine-tuned and evaluated on toxic content, fake news and news topic classification datasets. Comparative evaluation analysis of the proposed model against related multilingual models (e.g., AfriBERTa, AfroXLMR, etc) demonstrated that SomBERTa consistently outperformed these comparators in both fake news and toxic content classification tasks while achieving the best average accuracy (87.99%) across all tasks. This research contributes to Somali NLP by offering a foundational language model and a replicable framework for other low-resource languages, promoting digital and AI inclusivity and linguistic diversity.
- Abstract(参考訳): ソーシャルメディアアカウントを持つ全員がコンテンツを作成・共有できるという事実や、ニュースや情報ソースとしてのソーシャルメディアプラットフォームへの公衆依存の高まりは、誤情報、偽ニュース、有害なコンテンツなど、重大な課題をもたらしている。
人間のコンテンツモデレーションは、ポストされた素材にフラグを付けるために、これらのプラットフォームによってある程度役立つかもしれないが、AIモデルの使用は、これらの有害なコンテンツを緩和するために、より持続的でスケーラブルで効果的な方法を提供する。
しかし、ソマリ語のような低リソース言語は、注釈付きトレーニングデータセットの不足や言語モデルの欠如など、AI自動化の限界に直面している。
本稿では,ソマリア語におけるこれらのギャップのいくつかを埋めるために,現在進行中の研究成果について述べる。
特に、我々は、偽ニュースと毒性の分類という、下流の2つのアプリケーションのための2つの人間のアノテーション付きソーシャルメディアソースソマリデータセットを作成し、トランスフォーマーベースのモノリンガルソマリ言語モデル(名前はSomBERTa)を開発しました。
次に、SomBERTaは、有害コンテンツ、フェイクニュース、ニューストピック分類データセットに基づいて微調整され、評価される。
提案モデルと関連する多言語モデル(例えば、AfriBERTa、AfroXLMRなど)の比較分析により、SomBERTaは偽ニュースおよび有毒コンテンツ分類タスクにおいて、全てのタスクで最高の平均精度(87.99%)を達成しながら、これらのコンパレータを一貫して上回っていることが示された。
本研究は,他の低リソース言語に対する基礎言語モデルと複製可能なフレームワークを提供することにより,ソマリNLPに寄与し,デジタルおよびAIの傾きと言語多様性を促進する。
関連論文リスト
- Ethio-Fake: Cutting-Edge Approaches to Combat Fake News in Under-Resourced Languages Using Explainable AI [44.21078435758592]
誤報はコンテンツの作成や拡散が容易なため、急速に広まることがある。
従来のフェイクニュース検出のアプローチは、コンテンツベースの機能にのみ依存することが多い。
本稿では,ソーシャルコンテキストに基づく機能とニュースコンテンツ機能を統合した包括的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:49:35Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - TEET! Tunisian Dataset for Toxic Speech Detection [0.0]
チュニジア方言は、MSA、タマジット、イタリア語、フランス語など、他の多くの言語と組み合わせられている。
リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。
本稿では,約10kのコメントからなる注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2021-10-11T14:00:08Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。