論文の概要: TAD-Bench: A Comprehensive Benchmark for Embedding-Based Text Anomaly Detection
- arxiv url: http://arxiv.org/abs/2501.11960v1
- Date: Tue, 21 Jan 2025 08:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:41.973937
- Title: TAD-Bench: A Comprehensive Benchmark for Embedding-Based Text Anomaly Detection
- Title(参考訳): TAD-Bench: 埋め込みベースのテキスト異常検出のための総合ベンチマーク
- Authors: Yang Cao, Sikun Yang, Chen Li, Haolong Xiang, Lianyong Qi, Bo Liu, Rongsheng Li, Ming Liu,
- Abstract要約: テキスト異常検出は、自然言語処理タスクにおけるスパム、誤情報、および攻撃的な言語を特定するために重要である。
埋め込みベースのメソッドの採用が増えているにもかかわらず、様々なアプリケーションシナリオにおけるそれらの有効性と一般化性は、まだ未調査のままである。
テキスト異常検出のための埋め込み型アプローチを体系的に評価するベンチマークであるTAD-Benchを提案する。
- 参考スコア(独自算出の注目度): 18.14471932503304
- License:
- Abstract: Text anomaly detection is crucial for identifying spam, misinformation, and offensive language in natural language processing tasks. Despite the growing adoption of embedding-based methods, their effectiveness and generalizability across diverse application scenarios remain under-explored. To address this, we present TAD-Bench, a comprehensive benchmark designed to systematically evaluate embedding-based approaches for text anomaly detection. TAD-Bench integrates multiple datasets spanning different domains, combining state-of-the-art embeddings from large language models with a variety of anomaly detection algorithms. Through extensive experiments, we analyze the interplay between embeddings and detection methods, uncovering their strengths, weaknesses, and applicability to different tasks. These findings offer new perspectives on building more robust, efficient, and generalizable anomaly detection systems for real-world applications.
- Abstract(参考訳): テキスト異常検出は、自然言語処理タスクにおけるスパム、誤情報、および攻撃的な言語を特定するために重要である。
埋め込みベースのメソッドの採用が増えているにもかかわらず、様々なアプリケーションシナリオにおけるそれらの有効性と一般化性は、まだ未調査のままである。
そこで本研究では,テキスト異常検出のための埋め込み型アプローチを体系的に評価するための総合ベンチマークであるTAD-Benchを提案する。
TAD-Benchは、さまざまなドメインにまたがる複数のデータセットを統合し、大規模言語モデルからの最先端の埋め込みと、さまざまな異常検出アルゴリズムを組み合わせる。
広範にわたる実験を通じて,埋め込みと検出手法の相互作用を分析し,その強み,弱点,異なるタスクへの適用性を明らかにする。
これらの発見は、現実世界のアプリケーションに対してより堅牢で効率的で一般化可能な異常検出システムを構築するための新しい視点を提供する。
関連論文リスト
- Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Navigating the Shadows: Unveiling Effective Disturbances for Modern AI Content Detectors [24.954755569786396]
AIテキスト検出は、人間と機械が生成したコンテンツを区別するために現れた。
近年の研究では、これらの検出システムは、しばしば頑丈さを欠き、摂動テキストを効果的に区別する難しさを欠いていることが示されている。
我々の研究は、非公式な文章と専門的な文章の両方で現実世界のシナリオをシミュレートし、現在の検出器のアウト・オブ・ボックスのパフォーマンスを探求する。
論文 参考訳(メタデータ) (2024-06-13T08:37:01Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Learning Global-Local Correspondence with Semantic Bottleneck for
Logical Anomaly Detection [6.553276620691242]
本稿では,論理的制約を伴う視覚異常検出のためのGlobal-Local Cor correspondingence Framework (GLCF) という新しいフレームワークを提案する。
視覚異常検出は、産業的異常検出や医学的疾患の診断など、様々な現実世界の応用において活発な研究領域となっている。
論文 参考訳(メタデータ) (2023-03-10T08:09:40Z) - Explainable Contextual Anomaly Detection using Quantile Regression
Forests [14.80211278818555]
本研究では,依存性に基づく従来の異常検出手法とコンテキスト異常検出手法の接続を開発する。
そこで本研究では,文脈異常検出を自然に解釈する手法を提案する。
本手法は, 精度と解釈可能性の観点から, 最先端の異常検出法より優れる。
論文 参考訳(メタデータ) (2023-02-22T09:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。