論文の概要: NLP-ADBench: NLP Anomaly Detection Benchmark
- arxiv url: http://arxiv.org/abs/2412.04784v2
- Date: Thu, 09 Oct 2025 19:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:44.891982
- Title: NLP-ADBench: NLP Anomaly Detection Benchmark
- Title(参考訳): NLP-ADBench: NLP 異常検出ベンチマーク
- Authors: Yuangang Li, Jiaqi Li, Zhuo Xiao, Tiankai Yang, Yi Nian, Xiyang Hu, Yue Zhao,
- Abstract要約: 現在までに最も包括的なNLP異常検出ベンチマークであるNLP-ADBenchを紹介する。
すべてのデータセットで1つのモデルが支配的であり、自動モデル選択の必要性を示している。
トランスフォーマーベースの埋め込みによる2段階の手法は、特別なエンドツーエンドアプローチよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 12.903608218213007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly detection (AD) is an important machine learning task with applications in fraud detection, content moderation, and user behavior analysis. However, AD is relatively understudied in a natural language processing (NLP) context, limiting its effectiveness in detecting harmful content, phishing attempts, and spam reviews. We introduce NLP-ADBench, the most comprehensive NLP anomaly detection (NLP-AD) benchmark to date, which includes eight curated datasets and 19 state-of-the-art algorithms. These span 3 end-to-end methods and 16 two-step approaches that adapt classical, non-AD methods to language embeddings from BERT and OpenAI. Our empirical results show that no single model dominates across all datasets, indicating a need for automated model selection. Moreover, two-step methods with transformer-based embeddings consistently outperform specialized end-to-end approaches, with OpenAI embeddings outperforming those of BERT. We release NLP-ADBench at https://github.com/USC-FORTIS/NLP-ADBench, providing a unified framework for NLP-AD and supporting future investigations.
- Abstract(参考訳): 異常検出(AD)は、不正検出、コンテンツモデレーション、ユーザー行動解析などの応用において重要な機械学習タスクである。
しかし、ADは自然言語処理(NLP)の文脈で比較的過小評価されており、有害なコンテンツの検出、フィッシングの試み、スパムレビューの有効性を制限している。
NLP-ADBenchは、これまでで最も包括的なNLP異常検出(NLP-AD)ベンチマークであり、8つのキュレートされたデータセットと19の最先端アルゴリズムを含んでいる。
これらは、BERTとOpenAIの言語埋め込みに古典的で非ADメソッドを適用する3つのエンドツーエンドメソッドと16の2段階アプローチにまたがる。
実験の結果、すべてのデータセットで1つのモデルが支配的であり、自動モデル選択の必要性が示されています。
さらに、トランスフォーマーベースの埋め込みによる2段階の手法は、特定のエンドツーエンドアプローチよりも一貫して優れており、OpenAI埋め込みはBERTよりも優れています。
我々はNLP-ADBenchをhttps://github.com/USC-FORTIS/NLP-ADBenchでリリースし、NLP-ADの統一フレームワークを提供し、今後の調査をサポートする。
関連論文リスト
- Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Targeted Visualization of the Backbone of Encoder LLMs [46.453758431767724]
注意に基づく大規模言語モデル(LLMs)は、自然言語処理(NLP)における最先端技術である。
エンコーダモデルの成功にもかかわらず、私たちはこの作業に集中していますが、バイアスの問題や敵の攻撃に対する感受性など、いくつかのリスクも抱えています。
決定関数の一部を2次元のデータセットとともに視覚化するDeepViewのNLPドメインへの応用について検討する。
論文 参考訳(メタデータ) (2024-03-26T12:51:02Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - ANTONIO: Towards a Systematic Method of Generating NLP Benchmarks for
Verification [11.063566569882186]
コンピュータビジョンや他の数値データセットで機能する既知のニューラルネットワーク検証方法は、NLPでは機能しない。
本稿では,この問題の根底にある技術的理由について考察する。
我々は,これらの手法を,ニューラルネットワーク検証器ERANとマラブーにリンクするANTONIOと呼ばれるPythonライブラリとして実装する。
論文 参考訳(メタデータ) (2023-05-06T10:36:39Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Meta Learning for Natural Language Processing: A Survey [88.58260839196019]
ディープラーニングは自然言語処理(NLP)分野において主要な技術である。
ディープラーニングには多くのラベル付きデータが必要です。
メタ学習は、より良いアルゴリズムを学ぶためのアプローチを研究する機械学習の分野である。
論文 参考訳(メタデータ) (2022-05-03T13:58:38Z) - Robust Natural Language Processing: Recent Advances, Challenges, and
Future Directions [4.409836695738517]
文献を様々な次元にわたって体系的に要約することで,NLPロバストネス研究の構造化概要を述べる。
次に、テクニック、メトリクス、埋め込み、ベンチマークなど、堅牢性のさまざまな側面を深く掘り下げます。
論文 参考訳(メタデータ) (2022-01-03T17:17:11Z) - Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。
本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:02:31Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。