論文の概要: Approach to Predicting News -- A Precise Multi-LSTM Network With BERT
- arxiv url: http://arxiv.org/abs/2204.12093v1
- Date: Tue, 26 Apr 2022 06:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 20:47:01.497843
- Title: Approach to Predicting News -- A Precise Multi-LSTM Network With BERT
- Title(参考訳): ニュース予測へのアプローチ -BERTを用いた高精度マルチLSTMネットワーク
- Authors: Chia-Lin Chen (1), Pei-Yu Huang (2), Yi-Ting Huang (3), Chun Lin (3)
((1) Computer Science and Engineering, National Sun Yat-sen University,
Kaohsiung, Taiwan, (2) Management and Digital Innovation, University of
London, Singapore, (3) Institute of Information Science, Academia Sinica,
Taipei, Taiwan)
- Abstract要約: 本研究では,ニュースカテゴリーを分類する予測モデルを構築した。
うちが使ったコーパスには、28358のニュースと200のニュースが載っている。
各文書の埋め込みは8つの実数を持つ1つのベクトルに変換され、最も高いものは最大99%の精度で8つのニュースカテゴリに対応する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Varieties of Democracy (V-Dem) is a new approach to conceptualizing and
measuring democracy and politics. It has information for 200 countries and is
one of the biggest databases for political science. According to the V-Dem
annual democracy report 2019, Taiwan is one of the two countries that got
disseminated false information from foreign governments the most. It also shows
that the "made-up news" has caused a great deal of confusion in Taiwanese
society and has serious impacts on global stability. Although there are several
applications helping distinguish the false information, we found out that the
pre-processing of categorizing the news is still done by human labor. However,
human labor may cause mistakes and cannot work for a long time. The growing
demands for automatic machines in the near decades show that while the machine
can do as good as humans or even better, using machines can reduce humans'
burden and cut down costs. Therefore, in this work, we build a predictive model
to classify the category of news. The corpora we used contains 28358 news and
200 news scraped from the online newspaper Liberty Times Net (LTN) website and
includes 8 categories: Technology, Entertainment, Fashion, Politics, Sports,
International, Finance, and Health. At first, we use Bidirectional Encoder
Representations from Transformers (BERT) for word embeddings which transform
each Chinese character into a (1,768) vector. Then, we use a Long Short-Term
Memory (LSTM) layer to transform word embeddings into sentence embeddings and
add another LSTM layer to transform them into document embeddings. Each
document embedding is an input for the final predicting model, which contains
two Dense layers and one Activation layer. And each document embedding is
transformed into 1 vector with 8 real numbers, then the highest one will
correspond to the 8 news categories with up to 99% accuracy.
- Abstract(参考訳): 民主主義の多様性(V-Dem)は民主主義と政治を概念化し、測定する新しいアプローチである。
200か国にまたがる情報を持ち、政治科学の最大のデータベースの1つである。
V-Demの年次民主主義報告書によると、台湾は外国政府から偽情報を拡散した2カ国のうちの1つである。
また、台湾社会で「メイドアップニュース」が大きな混乱を引き起こし、世界的安定に深刻な影響を与えていることも示している。
偽情報を識別するアプリケーションもいくつかあるが、ニュースを分類する前処理は、まだ人間の労働によって行われていることが判明した。
しかし、人間の労働は失敗を招き、長時間は働けない。
今後数十年で自動機械の需要が高まっていることから、機械は人間に匹敵する性能を持つが、機械を使用することで人間の負担を減らし、コストを削減できる。
そこで本研究では,ニュースのカテゴリを分類するための予測モデルを構築した。
私たちが使ったコーパスには28358のニュースと200のニュースがオンライン新聞リバティ・タイムズ・ネット(LTN)のウェブサイトから削除され、テクノロジー、エンターテイメント、ファッション、政治、スポーツ、インターナショナル、ファイナンス、ヘルスの8つのカテゴリが含まれています。
まず、各漢字を (1,768) ベクトルに変換する単語埋め込みに対して、トランスフォーマー (bert) からの双方向エンコーダ表現を用いる。
次に,Long Short-Term Memory (LSTM) レイヤを用いて単語埋め込みを文埋め込みに変換し,別のLSTMレイヤを追加して文書埋め込みに変換する。
各ドキュメント埋め込みは、2つの密層と1つの活性化層を含むファイナル予測モデルの入力である。
そして、各文書の埋め込みは8つの実数を持つ1つのベクトルに変換され、最も高いものは最大99%の精度で8つのニュースカテゴリに対応する。
関連論文リスト
- NewsEdits 2.0: Learning the Intentions Behind Updating News [74.84017890548259]
イベントが進むにつれて、ニュース記事は新しい情報で更新されることが多い。
本研究では,言語的特徴が事実流動性を示すことを仮定し,ニュース記事のテキストのみを用いて,どの事実が更新されるかを予測する。
論文 参考訳(メタデータ) (2024-11-27T23:35:23Z) - Adapting Fake News Detection to the Era of Large Language Models [48.5847914481222]
我々は,機械による(言い換えられた)リアルニュース,機械生成のフェイクニュース,人書きのフェイクニュース,人書きのリアルニュースの相互作用について検討する。
我々の実験では、人書き記事のみに特化して訓練された検知器が、機械が生成したフェイクニュースを検出できる興味深いパターンを明らかにしましたが、その逆ではありません。
論文 参考訳(メタデータ) (2023-11-02T08:39:45Z) - It's All in the Embedding! Fake News Detection Using Document Embeddings [0.6091702876917281]
本稿では,文書埋め込みを用いて,ニュース記事を信頼性やニセモノと正確にラベル付けする複数のモデルを構築する手法を提案する。
また、バイナリや複数ラベルの分類を用いて偽ニュースを検出する異なるアーキテクチャのベンチマークを示す。
論文 参考訳(メタデータ) (2023-04-16T13:30:06Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - A Proposed Bi-LSTM Method to Fake News Detection [0.0]
偽ニュースは、アメリカ合衆国大統領選挙の結果に影響を与える決定的な要因となった。
Bi-LSTMは、ニュースが偽物か偽物かを判定するために適用された。
モデルの作成と実行の後、トレーニングデータによるモデル精度が84%、F1-macroスコアが62.0に達した。
論文 参考訳(メタデータ) (2022-06-15T06:36:42Z) - COVID-19 Fake News Detection Using Bidirectional Encoder Representations
from Transformers Based Models [16.400631119118636]
新型コロナウイルス(COVID-19)の偽ニュース検出は、NLP分野において新しく重要な課題となっている。
本稿では,変換器モデル(BERT)をベースモデルとして,事前学習した双方向表現を微調整する。
BiLSTM 層と CNN 層をそれぞれ凍結パラメータを持つ細調整BERT モデルのトップに加える。
論文 参考訳(メタデータ) (2021-09-30T02:50:05Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。