論文の概要: Fake News Classification in Urdu: A Domain Adaptation Approach for a Low-Resource Language
- arxiv url: http://arxiv.org/abs/2512.22778v1
- Date: Sun, 28 Dec 2025 04:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.219449
- Title: Fake News Classification in Urdu: A Domain Adaptation Approach for a Low-Resource Language
- Title(参考訳): ウルドゥー語におけるフェイクニュース分類:低リソース言語へのドメイン適応アプローチ
- Authors: Muhammad Zain Ali, Bernhard Pfahringer, Tony Smith,
- Abstract要約: ウルドゥー語における偽ニュース分類のための微調整前におけるドメイン適応の有効性について検討した。
我々は、XLM-RoBERTaとmBERTの2つの広く使われている多言語モデルを評価し、ドメイン適応型事前学習を適用した。
公開された4つのUrdu偽ニュースデータセットの実験では、ドメイン適応型XLM-Rがバニラよりも一貫して優れていることが示されている。
- 参考スコア(独自算出の注目度): 4.982413436059687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misinformation on social media is a widely acknowledged issue, and researchers worldwide are actively engaged in its detection. However, low-resource languages such as Urdu have received limited attention in this domain. An obvious approach is to utilize a multilingual pretrained language model and fine-tune it for a downstream classification task, such as misinformation detection. However, these models struggle with domain-specific terms, leading to suboptimal performance. To address this, we investigate the effectiveness of domain adaptation before fine-tuning for fake news classification in Urdu, employing a staged training approach to optimize model generalization. We evaluate two widely used multilingual models, XLM-RoBERTa and mBERT, and apply domain-adaptive pretraining using a publicly available Urdu news corpus. Experiments on four publicly available Urdu fake news datasets show that domain-adapted XLM-R consistently outperforms its vanilla counterpart, while domain-adapted mBERT exhibits mixed results.
- Abstract(参考訳): ソーシャルメディア上の誤報は広く認識されている問題であり、世界中の研究者がその発見に積極的に取り組んでいる。
しかし、Urduのような低リソース言語はこの領域で限られた関心を集めている。
明らかなアプローチは、多言語事前学習言語モデルを使用して、誤情報検出などの下流分類タスクに微調整を行うことである。
しかし、これらのモデルはドメイン固有の用語と競合し、最適以下のパフォーマンスをもたらす。
そこで本研究では,モデル一般化を最適化するための訓練手法を用いて,ウルドゥー語における偽ニュース分類のための微調整前のドメイン適応の有効性を検討する。
我々は、XLM-RoBERTaとmBERTの2つの広く使われている多言語モデルを評価し、パブリックなUrduニュースコーパスを用いてドメイン適応型事前学習を適用した。
公開された4つのUrdu偽ニュースデータセットの実験では、ドメイン適応のXLM-Rはバニラよりも一貫して優れており、ドメイン適応のmBERTは様々な結果を示している。
関連論文リスト
- Unified Large Language Models for Misinformation Detection in Low-Resource Linguistic Settings [1.5811829698567754]
ウルドゥー語のような地域言語でニュースを検出するための資源と戦略には顕著なギャップがある。
現在のUrduのフェイクニュースデータセットはドメイン固有であり、一般にはアクセスできないことが多い。
本稿では,Urduニュースのための最初のベンチマーク大規模FNDデータセットについて述べる。
論文 参考訳(メタデータ) (2025-06-02T12:19:28Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Domain Private Transformers for Multi-Domain Dialog Systems [2.7013801448234367]
本稿では、条件付き言語モデルがドメイン間でリークする確率を定量化する新しい方法として、ドメインプライバシを提案する。
メンバシップ推論攻撃実験により,本手法は,近年の微分プライベート言語モデルに応用された手法に匹敵するレジリエンスを有することが示された。
論文 参考訳(メタデータ) (2023-05-23T16:27:12Z) - SwitchPrompt: Learning Domain-Specific Gated Soft Prompts for
Classification in Low-Resource Domains [14.096170976149521]
SwitchPromptは、汎用ドメインからさまざまな低リソースドメインへのデータセットでトレーニングされた言語モデルを適応するための、新しくて軽量なプロンプト手法である。
筆者らは,SwitchPromptを用いた場合の一般領域事前学習言語モデルの有効性を3つのテキスト分類ベンチマークで検証した。
彼らはしばしば、ベースライン・オブ・ザ・アーツ・プロンプト法で訓練されたドメイン固有の手法を最大10.7%の精度で上回っている。
論文 参考訳(メタデータ) (2023-02-14T07:14:08Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。