論文の概要: Feature Extraction of Text for Deep Learning Algorithms: Application on
Fake News Detection
- arxiv url: http://arxiv.org/abs/2010.05496v2
- Date: Tue, 3 Nov 2020 11:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:48:02.368579
- Title: Feature Extraction of Text for Deep Learning Algorithms: Application on
Fake News Detection
- Title(参考訳): ディープラーニングアルゴリズムのためのテキストの特徴抽出:フェイクニュース検出への応用
- Authors: HyeonJun Kim
- Abstract要約: ディープラーニングアルゴリズムとニュースのオリジナルテキストのアルファベット周波数を使って、アルファベットのシーケンスに関する情報がなくても、偽ニュースや信頼できるニュースを高精度に分類することができることが示される。
アルファベットの周波数には、原文の複雑な文脈や意味を理解するのに有用な特徴がいくつか含まれているようである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Feature extraction is an important process of machine learning and deep
learning, as the process make algorithms function more efficiently, and also
accurate. In natural language processing used in deception detection such as
fake news detection, several ways of feature extraction in statistical aspect
had been introduced (e.g. N-gram). In this research, it will be shown that by
using deep learning algorithms and alphabet frequencies of the original text of
a news without any information about the sequence of the alphabet can actually
be used to classify fake news and trustworthy ones in high accuracy (85\%). As
this pre-processing method makes the data notably compact but also include the
feature that is needed for the classifier, it seems that alphabet frequencies
contains some useful features for understanding complex context or meaning of
the original text.
- Abstract(参考訳): 特徴抽出は、機械学習とディープラーニングの重要なプロセスであり、このプロセスはアルゴリズムをより効率的に、正確にする。
偽ニュース検出などの偽ニュース検出に用いられる自然言語処理では、統計的側面における特徴抽出方法がいくつか導入されている(例えばn-gram)。
本研究は, 疑似ニュースや信頼に値するニュースを高精度(85.5%)で分類するために, 学習アルゴリズムとニュースの原文のアルファベット頻度をアルファベットの順序に関する情報なしで利用できることを実証する。
この前処理方式は、データを顕著にコンパクトにするが、分類器に必要な特徴も含んでいるため、アルファベットの周波数は、原文の複雑な文脈や意味を理解するのに有用な特徴を持っているようである。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - A Novel Ehanced Move Recognition Algorithm Based on Pre-trained Models
with Positional Embeddings [6.688643243555054]
要約の認識は、コンテンツを効果的に特定し、記事を明確にするために重要である。
本稿では,中国科学・技術論文の非構造的抽象化に対する注意機構を備えた,改良された事前学習モデルとゲートネットワークを備えた新しい動き認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-14T03:20:28Z) - A Deep Learning Anomaly Detection Method in Textual Data [0.45687771576879593]
本稿では,従来の機械学習アルゴリズムと組み合わせたディープラーニングとトランスフォーマーアーキテクチャを提案する。
我々は、異常を予測するために、文変換器、オート、ロジスティック回帰、距離計算など、複数の機械学習手法を使用した。
論文 参考訳(メタデータ) (2022-11-25T05:18:13Z) - Refining neural network predictions using background knowledge [68.35246878394702]
学習システムにおける論理的背景知識を用いて,ラベル付きトレーニングデータの不足を補うことができることを示す。
そこで本研究では,修正された予測を元の予測に近い精度で検出する微分可能精細関数を提案する。
このアルゴリズムは、複雑なSATの公式に対して、非常に少ない繰り返しで最適に洗練され、勾配降下ができない解がしばしば見つかる。
論文 参考訳(メタデータ) (2022-06-10T10:17:59Z) - Development of Fake News Model using Machine Learning through Natural
Language Processing [0.7120858995754653]
機械学習アルゴリズムとフェイクニュースの識別に使用しています。
フェイクニュース検出では、単純な分類が完全に正しいわけではない。
機械学習とテキストベースの処理を統合することで、偽ニュースを検出することができる。
論文 参考訳(メタデータ) (2022-01-19T09:26:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Hidden Markov Based Mathematical Model dedicated to Extract Ingredients
from Recipe Text [0.0]
POSタグ(Partof-speech tagging)は、注釈付きコーパスを必要とする前処理タスクである。
隠れマルコフ構造に基づく数学的モデルを実行し,テキストレシピから抽出した成分の高精度な精度を得た。
論文 参考訳(メタデータ) (2021-09-28T14:38:11Z) - Does a Hybrid Neural Network based Feature Selection Model Improve Text
Classification? [9.23545668304066]
関連する特徴を得るためのハイブリッド特徴選択手法を提案する。
次に、特徴選択とニューラルネットワークパイプラインを実装する3つの方法を示す。
また,いくつかのデータセットの精度もわずかに向上した。
論文 参考訳(メタデータ) (2021-01-22T09:12:19Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。