論文の概要: A Deep Learning Anomaly Detection Method in Textual Data
- arxiv url: http://arxiv.org/abs/2211.13900v1
- Date: Fri, 25 Nov 2022 05:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:19:26.048826
- Title: A Deep Learning Anomaly Detection Method in Textual Data
- Title(参考訳): テキストデータにおけるディープラーニング異常検出法
- Authors: Amir Jafari
- Abstract要約: 本稿では,従来の機械学習アルゴリズムと組み合わせたディープラーニングとトランスフォーマーアーキテクチャを提案する。
我々は、異常を予測するために、文変換器、オート、ロジスティック回帰、距離計算など、複数の機械学習手法を使用した。
- 参考スコア(独自算出の注目度): 0.45687771576879593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we propose using deep learning and transformer architectures
combined with classical machine learning algorithms to detect and identify text
anomalies in texts. Deep learning model provides a very crucial context
information about the textual data which all textual context are converted to a
numerical representation. We used multiple machine learning methods such as
Sentence Transformers, Auto Encoders, Logistic Regression and Distance
calculation methods to predict anomalies. The method are tested on the texts
data and we used syntactic data from different source injected into the
original text as anomalies or use them as target. Different methods and
algorithm are explained in the field of outlier detection and the results of
the best technique is presented. These results suggest that our algorithm could
potentially reduce false positive rates compared with other anomaly detection
methods that we are testing.
- Abstract(参考訳): 本稿では,古典的機械学習アルゴリズムと組み合わされたディープラーニングとトランスフォーマアーキテクチャを用いて,テキスト中のテキスト異常の検出と識別を行う。
ディープラーニングモデルは、すべてのテキストコンテキストを数値表現に変換するテキストデータに関する非常に重要なコンテキスト情報を提供する。
文変換,オートエンコーダ,ロジスティック回帰,距離計算といった複数の機械学習手法を用いて異常の予測を行った。
本手法はテキストデータ上でテストされ,元のテキストに注入された異なるソースからの構文データを異常として,あるいはターゲットとして使用した。
異常検出の分野において異なる手法とアルゴリズムを説明し,最良の手法の結果を示す。
これらの結果から,本アルゴリズムは他の異常検出法と比較して偽陽性率を低減できる可能性が示唆された。
関連論文リスト
- GuideWalk -- Heterogeneous Data Fusion for Enhanced Learning -- A Multiclass Document Classification Case [0.0]
意味のある文のグラフ構造に基づく新しい埋め込み法を提案する。
本手法の有効性を分類問題において検証した。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
論文 参考訳(メタデータ) (2024-04-25T18:48:11Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Exploring Machine Learning and Transformer-based Approaches for
Deceptive Text Classification: A Comparative Analysis [0.0]
本研究では,機械学習とトランスフォーマーに基づくテキスト分類手法の比較分析を行った。
本稿では,従来の機械学習アルゴリズムと,BERT, XLNET, DistilBERT, RoBERTaなどの最先端トランスフォーマモデルの有効性について検討する。
本研究の結果は, 機械学習の強みと限界に光を当て, 認識テキスト分類のためのトランスフォーマーに基づく手法について検討した。
論文 参考訳(メタデータ) (2023-08-10T10:07:00Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation [2.1915057426589746]
オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
誤報の拡散による悪影響を抑えるために, 自動的噂検出技術が必要である。
本研究では、BERTに基づく事前学習言語モデルを用いて、テキストデータをベクトルにエンコードし、ニューラルネットワークモデルを用いてこれらのベクトルを分類し、誤情報を検出する。
論文 参考訳(メタデータ) (2022-03-15T08:54:36Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Autoregressive Belief Propagation for Decoding Block Codes [113.38181979662288]
誤り訂正符号の復号化にグラフニューラルネットワークを用いた最近の手法を再検討する。
本手法は,他手法がゼロワードでのみ学習できる対称性条件に反する。
1つの単語でトレーニングする余地がなく、関連するサンプル空間のごく一部でトレーニングできないにもかかわらず、効果的なトレーニングを実演する。
論文 参考訳(メタデータ) (2021-01-23T17:14:55Z) - Text Detection on Roughly Placed Books by Leveraging a Learning-based
Model Trained with Another Domain Data [0.30458514384586394]
本稿では,本書におけるテキスト領域の把握に適したバウンディングボックスの生成方法に焦点をあてる。
我々は,学習に基づく手法の結果を改善し,活用することで,境界ボックスを構築するアルゴリズムを開発した。
我々のアルゴリズムは、異なる学習に基づくアプローチを用いてシーンテキストを検出することができる。
論文 参考訳(メタデータ) (2020-06-26T05:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。