論文の概要: Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection
- arxiv url: http://arxiv.org/abs/2101.05509v2
- Date: Mon, 18 Jan 2021 15:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 06:52:29.054286
- Title: Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection
- Title(参考訳): トランスフォーマーを用いた新型コロナウイルス偽ニュース検出のための言語モデル微調整法
- Authors: Ben Chen, Bin Chen, Dehong Gao, Qijin Chen, Chengfu Huo, Xiaonan Meng,
Weijun Ren, Yang Zhou
- Abstract要約: 偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
- 参考スコア(独自算出の注目度): 7.29381091750894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the pandemic of COVID-19, relevant fake news is spreading all over the
sky throughout the social media. Believing in them without discrimination can
cause great trouble to people's life. However, universal language models may
perform weakly in these fake news detection for lack of large-scale annotated
data and sufficient semantic understanding of domain-specific knowledge. While
the model trained on corresponding corpora is also mediocre for insufficient
learning. In this paper, we propose a novel transformer-based language model
fine-tuning approach for these fake news detection. First, the token vocabulary
of individual model is expanded for the actual semantics of professional
phrases. Second, we adapt the heated-up softmax loss to distinguish the
hard-mining samples, which are common for fake news because of the
disambiguation of short text. Then, we involve adversarial training to improve
the model's robustness. Last, the predicted features extracted by universal
language model RoBERTa and domain-specific model CT-BERT are fused by one
multiple layer perception to integrate fine-grained and high-level specific
representations. Quantitative experimental results evaluated on existing
COVID-19 fake news dataset show its superior performances compared to the
state-of-the-art methods among various evaluation metrics. Furthermore, the
best weighted average F1 score achieves 99.02%.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックで、関連する偽ニュースがソーシャルメディア全体に広まっている。
差別なく彼らを信じることは、人々の生活に大きなトラブルを引き起こす可能性がある。
しかし、このような偽ニュースの検出には、大規模な注釈付きデータやドメイン固有の知識の十分なセマンティック理解が欠如しているため、普遍言語モデルは弱い。
対応するコーパスで訓練されたモデルは、不十分な学習にも適している。
本稿では,これら偽ニュース検出のためのトランスフォーマーに基づく言語モデル微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
第2に,短文の曖昧さから偽ニュースによく見られるハードマイニングサンプルを区別するために,加熱したソフトマックス損失を適用した。
そして、モデルの堅牢性を改善するために、敵の訓練を行う。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
既存のCOVID-19フェイクニュースデータセットで評価された定量的な実験結果は、様々な評価指標の最先端手法と比較して優れた性能を示した。
さらに、ベストウェイト平均F1スコアは99.02%に達する。
関連論文リスト
- Ethio-Fake: Cutting-Edge Approaches to Combat Fake News in Under-Resourced Languages Using Explainable AI [44.21078435758592]
誤報はコンテンツの作成や拡散が容易なため、急速に広まることがある。
従来のフェイクニュース検出のアプローチは、コンテンツベースの機能にのみ依存することが多い。
本稿では,ソーシャルコンテキストに基づく機能とニュースコンテンツ機能を統合した包括的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:49:35Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - COVID-19 Fake News Detection Using Bidirectional Encoder Representations
from Transformers Based Models [16.400631119118636]
新型コロナウイルス(COVID-19)の偽ニュース検出は、NLP分野において新しく重要な課題となっている。
本稿では,変換器モデル(BERT)をベースモデルとして,事前学習した双方向表現を微調整する。
BiLSTM 層と CNN 層をそれぞれ凍結パラメータを持つ細調整BERT モデルのトップに加える。
論文 参考訳(メタデータ) (2021-09-30T02:50:05Z) - Two Stage Transformer Model for COVID-19 Fake News Detection and Fact
Checking [0.3441021278275805]
我々は、自然言語処理のための機械学習モデルの状態を用いて、新型コロナウイルスの偽ニュース検出のための2段階の自動パイプラインを開発する。
最初のモデルは、新型コロナウイルス(COVID-19)の特定のクレームに関するユーザーのクレームに関する最も関連性の高い事実を検索する、新しい事実チェックアルゴリズムを活用する。
第2のモデルは、クレームと、手動でキュレートされたCOVID-19データセットから取得した真事実の間のテキストの関連性を計算することによって、クレームの真理レベルを検証する。
論文 参考訳(メタデータ) (2020-11-26T11:50:45Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。