論文の概要: Unified Large Language Models for Misinformation Detection in Low-Resource Linguistic Settings
- arxiv url: http://arxiv.org/abs/2506.01587v1
- Date: Mon, 02 Jun 2025 12:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.744857
- Title: Unified Large Language Models for Misinformation Detection in Low-Resource Linguistic Settings
- Title(参考訳): 低資源言語設定における誤情報検出のための統一型大言語モデル
- Authors: Muhammad Islam, Javed Ali Khan, Mohammed Abaker, Ali Daud, Azeem Irshad,
- Abstract要約: ウルドゥー語のような地域言語でニュースを検出するための資源と戦略には顕著なギャップがある。
現在のUrduのフェイクニュースデータセットはドメイン固有であり、一般にはアクセスできないことが多い。
本稿では,Urduニュースのための最初のベンチマーク大規模FNDデータセットについて述べる。
- 参考スコア(独自算出の注目度): 1.5811829698567754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid expansion of social media platforms has significantly increased the dissemination of forged content and misinformation, making the detection of fake news a critical area of research. Although fact-checking efforts predominantly focus on English-language news, there is a noticeable gap in resources and strategies to detect news in regional languages, such as Urdu. Advanced Fake News Detection (FND) techniques rely heavily on large, accurately labeled datasets. However, FND in under-resourced languages like Urdu faces substantial challenges due to the scarcity of extensive corpora and the lack of validated lexical resources. Current Urdu fake news datasets are often domain-specific and inaccessible to the public. They also lack human verification, relying mainly on unverified English-to-Urdu translations, which compromises their reliability in practical applications. This study highlights the necessity of developing reliable, expert-verified, and domain-independent Urdu-enhanced FND datasets to improve fake news detection in Urdu and other resource-constrained languages. This paper presents the first benchmark large FND dataset for Urdu news, which is publicly available for validation and deep analysis. We also evaluate this dataset using multiple state-of-the-art pre-trained large language models (LLMs), such as XLNet, mBERT, XLM-RoBERTa, RoBERTa, DistilBERT, and DeBERTa. Additionally, we propose a unified LLM model that outperforms the others with different embedding and feature extraction techniques. The performance of these models is compared based on accuracy, F1 score, precision, recall, and human judgment for vetting the sample results of news.
- Abstract(参考訳): ソーシャルメディアプラットフォームが急速に拡大し、偽ニュースの発見が重要な研究領域となり、偽コンテンツや誤情報の普及が著しく進んでいる。
事実チェックの取り組みは主に英語ニュースに焦点を当てているが、ウルドゥー語のような地域言語におけるニュースを検出するためのリソースと戦略には、顕著なギャップがある。
高度なフェイクニュース検出(FND)技術は、大きく正確にラベル付けされたデータセットに大きく依存している。
しかしながら、Urduのようなリソース不足言語におけるFNDは、広範なコーパスの不足と、検証された語彙リソースの欠如により、重大な課題に直面している。
現在のUrduのフェイクニュースデータセットはドメイン固有であり、一般にはアクセスできないことが多い。
また、人間による検証が欠如しており、主に英語からウルドゥー語への翻訳に頼っているため、実践的な応用における信頼性を損なう。
本研究は、ウルドゥー語や他のリソース制約言語における偽ニュース検出を改善するために、信頼性が高く、専門家が検証し、ドメインに依存しないFNDデータセットを開発する必要性を強調した。
本稿では,Urduニュースのための最初のベンチマーク大規模FNDデータセットについて述べる。
また,このデータセットを,XLNet,mBERT,XLM-RoBERTa,RoBERTa,DistilBERT,DeBERTaなど,最先端の事前訓練された大規模言語モデル(LLM)を用いて評価した。
さらに,異なる埋め込み手法と特徴抽出手法により,他のモデルよりも優れる統一LLMモデルを提案する。
これらのモデルの性能は、精度、F1スコア、精度、リコール、およびニュースのサンプル結果を検証するための人間の判断に基づいて比較される。
関連論文リスト
- MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection [7.533158533458647]
Ax-to-Grind Urduは、Urduで初めて公開された偽ニュースと実ニュースのデータセットである。
パキスタンとインドの新聞やニュースチャンネルから15のドメインで10,083件の偽ニュースと本物のニュースを流している。
我々は,mBERT,XLNet,XLM RoBERTaのアンサンブルモデルを用いて,データセットのベンチマークを行った。
論文 参考訳(メタデータ) (2024-03-20T23:21:35Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction [18.926993352330797]
本稿では,低リソース言語データの英語翻訳をモデルに微調整したフレームワークであるTransFusionを提案する。
GoLLIE-TFは、IEタスクのための言語間命令チューニング LLM であり、ハイソース言語と低リソース言語のパフォーマンスギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2023-05-23T01:23:22Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。