論文の概要: T-Detect: Tail-Aware Statistical Normalization for Robust Detection of Adversarial Machine-Generated Text
- arxiv url: http://arxiv.org/abs/2507.23577v1
- Date: Thu, 31 Jul 2025 14:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.91217
- Title: T-Detect: Tail-Aware Statistical Normalization for Robust Detection of Adversarial Machine-Generated Text
- Title(参考訳): T-Detect: 対向機械生成テキストのロバスト検出のためのTail-Awareの統計的正規化
- Authors: Alva West, Luodan Zhang, Liuliu Zhang, Minjun Zhu, Yixuan Weng, Yue Zhang,
- Abstract要約: 既存のゼロショット検出器は、しばしばガウス分布を暗黙的に仮定する統計測度に依存する。
本稿では、曲率に基づく検出器の統計コアを根本的に再設計する新しい検出法であるT-Detectを紹介する。
我々の貢献は、テキスト検出の理論的に正当化された新しい統計基盤、優れた堅牢性を示すアブレーション検証法、および敵条件下での性能の包括的解析である。
- 参考スコア(独自算出の注目度): 15.880428198252046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of sophisticated text generation models necessitates the development of robust detection methods capable of identifying machine-generated content, particularly text designed to evade detection through adversarial perturbations. Existing zero-shot detectors often rely on statistical measures that implicitly assume Gaussian distributions, a premise that falters when confronted with the heavy-tailed statistical artifacts characteristic of adversarial or non-native English texts. This paper introduces T-Detect, a novel detection method that fundamentally redesigns the statistical core of curvature-based detectors. Our primary innovation is the replacement of standard Gaussian normalization with a heavy-tailed discrepancy score derived from the Student's t-distribution. This approach is theoretically grounded in the empirical observation that adversarial texts exhibit significant leptokurtosis, rendering traditional statistical assumptions inadequate. T-Detect computes a detection score by normalizing the log-likelihood of a passage against the expected moments of a t-distribution, providing superior resilience to statistical outliers. We validate our approach on the challenging RAID benchmark for adversarial text and the comprehensive HART dataset. Experiments show that T-Detect provides a consistent performance uplift over strong baselines, improving AUROC by up to 3.9\% in targeted domains. When integrated into a two-dimensional detection framework (CT), our method achieves state-of-the-art performance, with an AUROC of 0.926 on the Books domain of RAID. Our contributions are a new, theoretically-justified statistical foundation for text detection, an ablation-validated method that demonstrates superior robustness, and a comprehensive analysis of its performance under adversarial conditions. Ours code are released at https://github.com/ResearAI/t-detect.
- Abstract(参考訳): 高度なテキスト生成モデルの普及は、機械が生成するコンテンツを識別できる堅牢な検出方法の開発を必要とする。
既存のゼロショット検出器は、しばしばガウス分布を暗黙的に仮定する統計測度に頼っている。
本稿では、曲率に基づく検出器の統計コアを根本的に再設計する新しい検出法であるT-Detectを紹介する。
我々の主要な革新は、標準ガウス正規化を、学生のt分布から派生した重み付き不一致スコアに置き換えることである。
このアプローチは、敵のテキストが顕著なレプトアルトシスを示し、従来の統計的仮定が不十分であるという経験的な観察に理論的に基礎を置いている。
T-Detectは、t分布の期待モーメントに対して通路の対数類似度を正規化することにより検出スコアを計算し、統計的外れ値に対して優れたレジリエンスを提供する。
我々は,敵対的テキストと包括的HARTデータセットのRAIDベンチマークに対するアプローチを検証した。
実験の結果、T-Detectは強力なベースラインに対して一貫したパフォーマンス向上を提供し、ターゲットドメインで最大3.9\%のAUROCを改善した。
2次元検出フレームワーク(CT)に統合されると,RAID の Books ドメイン上で 0.926 の AUROC を用いて,最先端の性能を実現する。
我々の貢献は、テキスト検出のための理論上は正当化された新しい統計基盤、優れた堅牢性を示すアブレーション検証法、および敵条件下での性能の包括的解析である。
私たちのコードはhttps://github.com/ResearAI/t-detect.comでリリースされています。
関連論文リスト
- Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Adversarial Attacks on AI-Generated Text Detection Models: A Token Probability-Based Approach Using Embeddings [14.150011713654331]
本研究では,Fast-DetectGPTなどの検出モデルに対する新たなテキスト逆攻撃を提案する。
この手法では、AI生成したテキストの再構築を目的として、データ摂動の埋め込みモデルを用いて、テキストの真の起源を検出する可能性を低減する。
論文 参考訳(メタデータ) (2025-01-31T10:06:27Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Anomaly Detection with Test Time Augmentation and Consistency Evaluation [13.709281244889691]
本稿では,TTA-AD(Test Time Augmentation Anomaly Detection)と呼ばれる簡易かつ効果的な異常検出アルゴリズムを提案する。
我々は、分散データよりもトレーニングされたネットワーク上でのオリジナルバージョンと拡張バージョンについて、分散データの方が一貫性のある予測を楽しむことを観察した。
様々な高解像度画像ベンチマークデータセットの実験は、TTA-ADが同等またはより良い検出性能を達成することを示した。
論文 参考訳(メタデータ) (2022-06-06T04:27:06Z) - Adversarial Attacks and Defense for Non-Parametric Two-Sample Tests [73.32304304788838]
本稿では,非パラメトリックTSTの障害モードを逆攻撃により系統的に明らかにする。
TST非依存的な攻撃を可能にするために,異なる種類のテスト基準を協調的に最小化するアンサンブル攻撃フレームワークを提案する。
そこで本研究では,TSTの強化のために,逆対を反復的に生成し,深層カーネルを訓練する最大最小最適化を提案する。
論文 参考訳(メタデータ) (2022-02-07T11:18:04Z) - Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。
本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2021-11-12T06:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。