論文の概要: Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding
- arxiv url: http://arxiv.org/abs/2507.12295v1
- Date: Wed, 16 Jul 2025 14:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.436825
- Title: Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding
- Title(参考訳): Text-ADBench: LLM埋め込みに基づくテキスト異常検出ベンチマーク
- Authors: Feng Xiao, Jicong Fan,
- Abstract要約: 本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
- 参考スコア(独自算出の注目度): 27.02879006439693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text anomaly detection is a critical task in natural language processing (NLP), with applications spanning fraud detection, misinformation identification, spam detection and content moderation, etc. Despite significant advances in large language models (LLMs) and anomaly detection algorithms, the absence of standardized and comprehensive benchmarks for evaluating the existing anomaly detection methods on text data limits rigorous comparison and development of innovative approaches. This work performs a comprehensive empirical study and introduces a benchmark for text anomaly detection, leveraging embeddings from diverse pre-trained language models across a wide array of text datasets. Our work systematically evaluates the effectiveness of embedding-based text anomaly detection by incorporating (1) early language models (GloVe, BERT); (2) multiple LLMs (LLaMa-2, LLama-3, Mistral, OpenAI (small, ada, large)); (3) multi-domain text datasets (news, social media, scientific publications); (4) comprehensive evaluation metrics (AUROC, AUPRC). Our experiments reveal a critical empirical insight: embedding quality significantly governs anomaly detection efficacy, and deep learning-based approaches demonstrate no performance advantage over conventional shallow algorithms (e.g., KNN, Isolation Forest) when leveraging LLM-derived embeddings.In addition, we observe strongly low-rank characteristics in cross-model performance matrices, which enables an efficient strategy for rapid model evaluation (or embedding evaluation) and selection in practical applications. Furthermore, by open-sourcing our benchmark toolkit that includes all embeddings from different models and code at https://github.com/jicongfan/Text-Anomaly-Detection-Benchmark, this work provides a foundation for future research in robust and scalable text anomaly detection systems.
- Abstract(参考訳): テキスト異常検出は自然言語処理(NLP)において重要なタスクであり、不正検出、誤情報識別、スパム検出、コンテンツモデレーションなどの応用がある。
大規模言語モデル(LLM)と異常検出アルゴリズムの大幅な進歩にもかかわらず、テキストデータ上の既存の異常検出方法を評価するための標準的および包括的なベンチマークが欠如していることは、厳密な比較と革新的なアプローチの開発である。
この研究は総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入し、幅広いテキストデータセットにまたがる様々な事前学習された言語モデルからの埋め込みを活用している。
本研究は,(1)早期言語モデル(GloVe,BERT),(2)複数 LLM (LLaMa-2, LLama-3, Mistral, OpenAI (小, ada, large)),(3)複数ドメインテキストデータセット(ニュース,ソーシャルメディア,学術出版物),(4)総合評価指標(AUROC, AUPRC)を組み込んだ埋め込み型テキスト異常検出の有効性を体系的に評価する。
実験の結果, 組込み品質は異常検出の有効性を著しく制御し, 従来の浅層アルゴリズム(例えば, KNN, 孤立林など)に比べて, LLMをベースとした組込み手法では性能上の優位性を示さず, さらに, クロスモデル性能行列の低ランク特性を強く観察し, 高速モデル評価(あるいは組込み評価)と実用上の選択を効果的に行うことができることを示した。
さらに、さまざまなモデルとコードの埋め込みを含むベンチマークツールキットをhttps://github.com/jicongfan/Text-Anomaly-Detection-Benchmarkでオープンソース化することで、堅牢でスケーラブルなテキスト異常検出システムに関する将来の研究の基礎を提供する。
関連論文リスト
- TAD-Bench: A Comprehensive Benchmark for Embedding-Based Text Anomaly Detection [18.14471932503304]
テキスト異常検出は、自然言語処理タスクにおけるスパム、誤情報、および攻撃的な言語を特定するために重要である。
埋め込みベースのメソッドの採用が増えているにもかかわらず、様々なアプリケーションシナリオにおけるそれらの有効性と一般化性は、まだ未調査のままである。
テキスト異常検出のための埋め込み型アプローチを体系的に評価するベンチマークであるTAD-Benchを提案する。
論文 参考訳(メタデータ) (2025-01-21T08:13:10Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。