論文の概要: Fake News Detection in Spanish Using Deep Learning Techniques
- arxiv url: http://arxiv.org/abs/2110.06461v1
- Date: Wed, 13 Oct 2021 02:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 12:55:23.161576
- Title: Fake News Detection in Spanish Using Deep Learning Techniques
- Title(参考訳): 深層学習を用いたスペイン語のフェイクニュース検出
- Authors: Kevin Mart\'inez-Gallego, Andr\'es M. \'Alvarez-Ortiz, Juli\'an D.
Arias-Londo\~no
- Abstract要約: 本稿では,機械学習を用いたスペイン語における偽ニュース検出の問題に対処する。
基本的には英語における問題と同じである。
マシンラーニングモデルを効果的にトレーニングするために、スペイン語で公開され、適切にラベル付けされた偽ニュースは、それほど多くはない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of fake news detection in Spanish using
Machine Learning techniques. It is fundamentally the same problem tackled for
the English language; however, there is not a significant amount of publicly
available and adequately labeled fake news in Spanish to effectively train a
Machine Learning model, similarly to those proposed for the English language.
Therefore, this work explores different training strategies and architectures
to establish a baseline for further research in this area. Four datasets were
used, two in English and two in Spanish, and four experimental schemes were
tested, including a baseline with classical Machine Learning models, trained
and validated using a small dataset in Spanish. The remaining schemes include
state-of-the-art Deep Learning models trained (or fine-tuned) and validated in
English, trained and validated in Spanish, and fitted in English and validated
with automatic translated Spanish sentences. The Deep Learning architectures
were built on top of different pre-trained Word Embedding representations,
including GloVe, ELMo, BERT, and BETO (a BERT version trained on a large corpus
in Spanish). According to the results, the best strategy was a combination of a
pre-trained BETO model and a Recurrent Neural Network based on LSTM layers,
yielding an accuracy of up to 80%; nonetheless, a baseline model using a Random
Forest estimator obtained similar outcomes. Additionally, the translation
strategy did not yield acceptable results because of the propagation error;
there was also observed a significant difference in models performance when
trained in English or Spanish, mainly attributable to the number of samples
available for each language.
- Abstract(参考訳): 本稿では,機械学習を用いたスペイン語における偽ニュース検出の問題に対処する。
基本的には英語に当てはまるのと同じ問題であるが、英語で提案されているような機械学習モデルを効果的に訓練するために、スペイン語で公開され、適切にラベル付けされたフェイクニュースは多くはない。
そこで本研究では,この領域におけるさらなる研究の基盤となるトレーニング戦略とアーキテクチャについて検討する。
4つのデータセットが使用されており、2つは英語、2つはスペイン語で、2つはスペイン語で、2つの実験的なスキームがテストされた。
残りの計画には、訓練された(あるいは微調整された)最先端のディープラーニングモデルが含まれ、英語で検証され、スペイン語で訓練、検証され、英語で適合し、自動翻訳されたスペイン語文で検証される。
Deep Learningアーキテクチャは、GloVe、ELMo、BERT、BETO(スペイン語で大規模コーパスでトレーニングされたBERTバージョン)など、事前訓練済みのWord Embedding表現の上に構築された。
その結果,事前学習したBETOモデルとLSTM層に基づくリカレントニューラルネットワークを組み合わせることで,最大80%の精度が得られるが,ランダムフォレスト推定器を用いたベースラインモデルも同様の結果を得た。
さらに、翻訳戦略は伝播誤差のために許容できる結果を得られなかったが、英語やスペイン語で訓練された場合、主に各言語で利用可能なサンプルの数に起因するモデル性能に有意な差が見られた。
関連論文リスト
- Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish [4.473327661758546]
本論文では,ポーランド語に焦点をあてた最初のアブレーション研究について述べる。
多言語モデルから単言語モデルへの知識伝達の事前学習手順を設計・評価します。
提案された手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTが訓練される。
論文 参考訳(メタデータ) (2021-05-04T20:16:17Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。