論文の概要: NLP-ADBench: NLP Anomaly Detection Benchmark
- arxiv url: http://arxiv.org/abs/2412.04784v1
- Date: Fri, 06 Dec 2024 05:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:31.186992
- Title: NLP-ADBench: NLP Anomaly Detection Benchmark
- Title(参考訳): NLP-ADBench: NLP 異常検出ベンチマーク
- Authors: Yuangang Li, Jiaqi Li, Zhuo Xiao, Tiankai Yang, Yi Nian, Xiyang Hu, Yue Zhao,
- Abstract要約: NLP異常検出のための最も包括的なベンチマークであるNLP-ADBenchを紹介する。
すべてのデータセットに1つのモデルが排他的であり、自動モデル選択の必要性を強調している。
トランスフォーマーベースの埋め込みを利用する2段階の手法は、特別なエンドツーエンドアプローチよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 9.445800367013744
- License:
- Abstract: Anomaly detection (AD) is a critical machine learning task with diverse applications in web systems, including fraud detection, content moderation, and user behavior analysis. Despite its significance, AD in natural language processing (NLP) remains underexplored, limiting advancements in detecting anomalies in text data such as harmful content, phishing attempts, or spam reviews. In this paper, we introduce NLP-ADBench, the most comprehensive benchmark for NLP anomaly detection (NLP-AD), comprising eight curated datasets and evaluations of nineteen state-of-the-art algorithms. These include three end-to-end methods and sixteen two-step algorithms that apply traditional anomaly detection techniques to language embeddings generated by bert-base-uncased and OpenAI's text-embedding-3-large models. Our results reveal critical insights and future directions for NLP-AD. Notably, no single model excels across all datasets, highlighting the need for automated model selection. Moreover, two-step methods leveraging transformer-based embeddings consistently outperform specialized end-to-end approaches, with OpenAI embeddings demonstrating superior performance over BERT embeddings. By releasing NLP-ADBench at https://github.com/USC-FORTIS/NLP-ADBench, we provide a standardized framework for evaluating NLP-AD methods, fostering the development of innovative approaches. This work fills a crucial gap in the field and establishes a foundation for advancing NLP anomaly detection, particularly in the context of improving the safety and reliability of web-based systems.
- Abstract(参考訳): 異常検出(AD)は、不正検出、コンテンツモデレーション、ユーザー行動分析など、Webシステムにおける多様なアプリケーションにおいて重要な機械学習タスクである。
その重要性にもかかわらず、自然言語処理(NLP)におけるADは未探索のままであり、有害なコンテンツ、フィッシングの試み、スパムレビューなどのテキストデータにおける異常の検出の進歩を制限している。
本稿では,NLP異常検出(NLP-AD)の最も包括的なベンチマークであるNLP-ADBenchについて紹介する。
これには、bert-base-uncasedとOpenAIのtext-embedding-3-largeモデルによって生成された言語埋め込みに、従来の異常検出技術を適用する3つのエンドツーエンドメソッドと16の2段階アルゴリズムが含まれる。
以上の結果から,NLP-ADに対する重要な知見と今後の方向性が明らかとなった。
注目すべきなのは、すべてのデータセットに1つのモデルが排他的であり、自動モデル選択の必要性を強調していることだ。
さらに、トランスフォーマーベースの埋め込みを利用する2段階の手法は、BERT埋め込みよりも優れた性能を示すOpenAI埋め込みにより、特殊エンドツーエンドアプローチよりも一貫して優れている。
NLP-ADBenchをhttps://github.com/USC-FORTIS/NLP-ADBenchでリリースすることにより、NLP-ADメソッドを評価するための標準化されたフレームワークを提供し、革新的なアプローチの開発を促進する。
この研究はこの分野における重要なギャップを埋め、特にWebベースのシステムの安全性と信頼性を向上させる文脈において、NLP異常検出の進展の基礎を確立する。
関連論文リスト
- Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Targeted Visualization of the Backbone of Encoder LLMs [46.453758431767724]
注意に基づく大規模言語モデル(LLMs)は、自然言語処理(NLP)における最先端技術である。
エンコーダモデルの成功にもかかわらず、私たちはこの作業に集中していますが、バイアスの問題や敵の攻撃に対する感受性など、いくつかのリスクも抱えています。
決定関数の一部を2次元のデータセットとともに視覚化するDeepViewのNLPドメインへの応用について検討する。
論文 参考訳(メタデータ) (2024-03-26T12:51:02Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - ANTONIO: Towards a Systematic Method of Generating NLP Benchmarks for
Verification [11.063566569882186]
コンピュータビジョンや他の数値データセットで機能する既知のニューラルネットワーク検証方法は、NLPでは機能しない。
本稿では,この問題の根底にある技術的理由について考察する。
我々は,これらの手法を,ニューラルネットワーク検証器ERANとマラブーにリンクするANTONIOと呼ばれるPythonライブラリとして実装する。
論文 参考訳(メタデータ) (2023-05-06T10:36:39Z) - Meta Learning for Natural Language Processing: A Survey [88.58260839196019]
ディープラーニングは自然言語処理(NLP)分野において主要な技術である。
ディープラーニングには多くのラベル付きデータが必要です。
メタ学習は、より良いアルゴリズムを学ぶためのアプローチを研究する機械学習の分野である。
論文 参考訳(メタデータ) (2022-05-03T13:58:38Z) - Robust Natural Language Processing: Recent Advances, Challenges, and
Future Directions [4.409836695738517]
文献を様々な次元にわたって体系的に要約することで,NLPロバストネス研究の構造化概要を述べる。
次に、テクニック、メトリクス、埋め込み、ベンチマークなど、堅牢性のさまざまな側面を深く掘り下げます。
論文 参考訳(メタデータ) (2022-01-03T17:17:11Z) - Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。
本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:02:31Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。