論文の概要: Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding
- arxiv url: http://arxiv.org/abs/2507.12295v1
- Date: Wed, 16 Jul 2025 14:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.436825
- Title: Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding
- Title(参考訳): Text-ADBench: LLM埋め込みに基づくテキスト異常検出ベンチマーク
- Authors: Feng Xiao, Jicong Fan,
- Abstract要約: 本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
- 参考スコア(独自算出の注目度): 27.02879006439693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text anomaly detection is a critical task in natural language processing (NLP), with applications spanning fraud detection, misinformation identification, spam detection and content moderation, etc. Despite significant advances in large language models (LLMs) and anomaly detection algorithms, the absence of standardized and comprehensive benchmarks for evaluating the existing anomaly detection methods on text data limits rigorous comparison and development of innovative approaches. This work performs a comprehensive empirical study and introduces a benchmark for text anomaly detection, leveraging embeddings from diverse pre-trained language models across a wide array of text datasets. Our work systematically evaluates the effectiveness of embedding-based text anomaly detection by incorporating (1) early language models (GloVe, BERT); (2) multiple LLMs (LLaMa-2, LLama-3, Mistral, OpenAI (small, ada, large)); (3) multi-domain text datasets (news, social media, scientific publications); (4) comprehensive evaluation metrics (AUROC, AUPRC). Our experiments reveal a critical empirical insight: embedding quality significantly governs anomaly detection efficacy, and deep learning-based approaches demonstrate no performance advantage over conventional shallow algorithms (e.g., KNN, Isolation Forest) when leveraging LLM-derived embeddings.In addition, we observe strongly low-rank characteristics in cross-model performance matrices, which enables an efficient strategy for rapid model evaluation (or embedding evaluation) and selection in practical applications. Furthermore, by open-sourcing our benchmark toolkit that includes all embeddings from different models and code at https://github.com/jicongfan/Text-Anomaly-Detection-Benchmark, this work provides a foundation for future research in robust and scalable text anomaly detection systems.
- Abstract(参考訳): テキスト異常検出は自然言語処理(NLP)において重要なタスクであり、不正検出、誤情報識別、スパム検出、コンテンツモデレーションなどの応用がある。
大規模言語モデル(LLM)と異常検出アルゴリズムの大幅な進歩にもかかわらず、テキストデータ上の既存の異常検出方法を評価するための標準的および包括的なベンチマークが欠如していることは、厳密な比較と革新的なアプローチの開発である。
この研究は総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入し、幅広いテキストデータセットにまたがる様々な事前学習された言語モデルからの埋め込みを活用している。
本研究は,(1)早期言語モデル(GloVe,BERT),(2)複数 LLM (LLaMa-2, LLama-3, Mistral, OpenAI (小, ada, large)),(3)複数ドメインテキストデータセット(ニュース,ソーシャルメディア,学術出版物),(4)総合評価指標(AUROC, AUPRC)を組み込んだ埋め込み型テキスト異常検出の有効性を体系的に評価する。
実験の結果, 組込み品質は異常検出の有効性を著しく制御し, 従来の浅層アルゴリズム(例えば, KNN, 孤立林など)に比べて, LLMをベースとした組込み手法では性能上の優位性を示さず, さらに, クロスモデル性能行列の低ランク特性を強く観察し, 高速モデル評価(あるいは組込み評価)と実用上の選択を効果的に行うことができることを示した。
さらに、さまざまなモデルとコードの埋め込みを含むベンチマークツールキットをhttps://github.com/jicongfan/Text-Anomaly-Detection-Benchmarkでオープンソース化することで、堅牢でスケーラブルなテキスト異常検出システムに関する将来の研究の基礎を提供する。
関連論文リスト
- TAD-Bench: A Comprehensive Benchmark for Embedding-Based Text Anomaly Detection [18.14471932503304]
テキスト異常検出は、自然言語処理タスクにおけるスパム、誤情報、および攻撃的な言語を特定するために重要である。
埋め込みベースのメソッドの採用が増えているにもかかわらず、様々なアプリケーションシナリオにおけるそれらの有効性と一般化性は、まだ未調査のままである。
テキスト異常検出のための埋め込み型アプローチを体系的に評価するベンチマークであるTAD-Benchを提案する。
論文 参考訳(メタデータ) (2025-01-21T08:13:10Z) - Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。