論文の概要: NLP-ADBench: NLP Anomaly Detection Benchmark
- arxiv url: http://arxiv.org/abs/2412.04784v2
- Date: Thu, 09 Oct 2025 19:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:44.891982
- Title: NLP-ADBench: NLP Anomaly Detection Benchmark
- Title(参考訳): NLP-ADBench: NLP 異常検出ベンチマーク
- Authors: Yuangang Li, Jiaqi Li, Zhuo Xiao, Tiankai Yang, Yi Nian, Xiyang Hu, Yue Zhao,
- Abstract要約: 現在までに最も包括的なNLP異常検出ベンチマークであるNLP-ADBenchを紹介する。
すべてのデータセットで1つのモデルが支配的であり、自動モデル選択の必要性を示している。
トランスフォーマーベースの埋め込みによる2段階の手法は、特別なエンドツーエンドアプローチよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 12.903608218213007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomaly detection (AD) is an important machine learning task with applications in fraud detection, content moderation, and user behavior analysis. However, AD is relatively understudied in a natural language processing (NLP) context, limiting its effectiveness in detecting harmful content, phishing attempts, and spam reviews. We introduce NLP-ADBench, the most comprehensive NLP anomaly detection (NLP-AD) benchmark to date, which includes eight curated datasets and 19 state-of-the-art algorithms. These span 3 end-to-end methods and 16 two-step approaches that adapt classical, non-AD methods to language embeddings from BERT and OpenAI. Our empirical results show that no single model dominates across all datasets, indicating a need for automated model selection. Moreover, two-step methods with transformer-based embeddings consistently outperform specialized end-to-end approaches, with OpenAI embeddings outperforming those of BERT. We release NLP-ADBench at https://github.com/USC-FORTIS/NLP-ADBench, providing a unified framework for NLP-AD and supporting future investigations.
- Abstract(参考訳): 異常検出(AD)は、不正検出、コンテンツモデレーション、ユーザー行動解析などの応用において重要な機械学習タスクである。
しかし、ADは自然言語処理(NLP)の文脈で比較的過小評価されており、有害なコンテンツの検出、フィッシングの試み、スパムレビューの有効性を制限している。
NLP-ADBenchは、これまでで最も包括的なNLP異常検出(NLP-AD)ベンチマークであり、8つのキュレートされたデータセットと19の最先端アルゴリズムを含んでいる。
これらは、BERTとOpenAIの言語埋め込みに古典的で非ADメソッドを適用する3つのエンドツーエンドメソッドと16の2段階アプローチにまたがる。
実験の結果、すべてのデータセットで1つのモデルが支配的であり、自動モデル選択の必要性が示されています。
さらに、トランスフォーマーベースの埋め込みによる2段階の手法は、特定のエンドツーエンドアプローチよりも一貫して優れており、OpenAI埋め込みはBERTよりも優れています。
我々はNLP-ADBenchをhttps://github.com/USC-FORTIS/NLP-ADBenchでリリースし、NLP-ADの統一フレームワークを提供し、今後の調査をサポートする。
関連論文リスト
- Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Targeted Visualization of the Backbone of Encoder LLMs [46.453758431767724]
注意に基づく大規模言語モデル(LLMs)は、自然言語処理(NLP)における最先端技術である。
エンコーダモデルの成功にもかかわらず、私たちはこの作業に集中していますが、バイアスの問題や敵の攻撃に対する感受性など、いくつかのリスクも抱えています。
決定関数の一部を2次元のデータセットとともに視覚化するDeepViewのNLPドメインへの応用について検討する。
論文 参考訳(メタデータ) (2024-03-26T12:51:02Z) - Phishing Website Detection through Multi-Model Analysis of HTML Content [0.0]
本研究では,HTMLコンテンツに着目した高度な検出モデルを導入することにより,フィッシングのプレス問題に対処する。
提案手法は、構造化表データのための特殊多層パーセプトロン(MLP)モデルと、テキストの特徴を解析するための2つの事前学習自然言語処理(NLP)モデルを統合する。
2つのNLPと1つのモデルであるMultiText-LPの融合により、96.80 F1スコアと97.18精度スコアが得られた。
論文 参考訳(メタデータ) (2024-01-09T21:08:13Z) - SecureReg: Combining NLP and MLP for Enhanced Detection of Malicious Domain Name Registrations [0.0]
本稿では,登録プロセス開始時に疑わしいドメインを特定するための最先端アプローチを提案する。
提案システムは,自然言語処理技術(NLP)の新たな組み合わせを利用して,意味的および数値的属性を解析する。
F1スコアは84.86%、精度は84.95%で、悪意のあるドメイン登録を効果的に検出する。
論文 参考訳(メタデータ) (2024-01-06T11:43:57Z) - Large Language Models as Annotators: Enhancing Generalization of NLP
Models at Minimal Cost [6.662800021628275]
入力のアノテートやNLPモデルの一般化のための大言語モデル(LLM)について検討する。
ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-27T19:29:55Z) - ANTONIO: Towards a Systematic Method of Generating NLP Benchmarks for
Verification [11.063566569882186]
コンピュータビジョンや他の数値データセットで機能する既知のニューラルネットワーク検証方法は、NLPでは機能しない。
本稿では,この問題の根底にある技術的理由について考察する。
我々は,これらの手法を,ニューラルネットワーク検証器ERANとマラブーにリンクするANTONIOと呼ばれるPythonライブラリとして実装する。
論文 参考訳(メタデータ) (2023-05-06T10:36:39Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。
我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T16:25:08Z) - NP-Match: When Neural Processes meet Semi-Supervised Learning [133.009621275051]
半教師付き学習(SSL)は近年広く研究されており、ラベル付きデータへの依存を減らすためにラベル付きデータを活用する効果的な方法である。
本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-07-03T15:24:31Z) - Meta Learning for Natural Language Processing: A Survey [88.58260839196019]
ディープラーニングは自然言語処理(NLP)分野において主要な技術である。
ディープラーニングには多くのラベル付きデータが必要です。
メタ学習は、より良いアルゴリズムを学ぶためのアプローチを研究する機械学習の分野である。
論文 参考訳(メタデータ) (2022-05-03T13:58:38Z) - Robust Natural Language Processing: Recent Advances, Challenges, and
Future Directions [4.409836695738517]
文献を様々な次元にわたって体系的に要約することで,NLPロバストネス研究の構造化概要を述べる。
次に、テクニック、メトリクス、埋め込み、ベンチマークなど、堅牢性のさまざまな側面を深く掘り下げます。
論文 参考訳(メタデータ) (2022-01-03T17:17:11Z) - Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。
本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:02:31Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。