論文の概要: TH-Bench: Evaluating Evading Attacks via Humanizing AI Text on Machine-Generated Text Detectors
- arxiv url: http://arxiv.org/abs/2503.08708v2
- Date: Thu, 13 Mar 2025 10:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 12:09:22.950605
- Title: TH-Bench: Evaluating Evading Attacks via Humanizing AI Text on Machine-Generated Text Detectors
- Title(参考訳): TH-Bench: マシン生成テキスト検出器上でAIテキストを人間化してエバディング攻撃を評価する
- Authors: Jingyi Zheng, Junfeng Wang, Zhen Sun, Wenhan Dong, Yule Liu, Xinlei He,
- Abstract要約: 我々は、MGT検出器に対する回避攻撃を評価するための最初の総合的なベンチマークであるTH-Benchを紹介する。
TH-Benchは、有効性、テキスト品質、計算オーバーヘッドの3つの重要な側面にわたる攻撃を評価する。
以上の結果から,3次元に1回の攻撃が及ばないことが判明した。
- 参考スコア(独自算出の注目度): 15.533392810111298
- License:
- Abstract: As Large Language Models (LLMs) advance, Machine-Generated Texts (MGTs) have become increasingly fluent, high-quality, and informative. Existing wide-range MGT detectors are designed to identify MGTs to prevent the spread of plagiarism and misinformation. However, adversaries attempt to humanize MGTs to evade detection (named evading attacks), which requires only minor modifications to bypass MGT detectors. Unfortunately, existing attacks generally lack a unified and comprehensive evaluation framework, as they are assessed using different experimental settings, model architectures, and datasets. To fill this gap, we introduce the Text-Humanization Benchmark (TH-Bench), the first comprehensive benchmark to evaluate evading attacks against MGT detectors. TH-Bench evaluates attacks across three key dimensions: evading effectiveness, text quality, and computational overhead. Our extensive experiments evaluate 6 state-of-the-art attacks against 13 MGT detectors across 6 datasets, spanning 19 domains and generated by 11 widely used LLMs. Our findings reveal that no single evading attack excels across all three dimensions. Through in-depth analysis, we highlight the strengths and limitations of different attacks. More importantly, we identify a trade-off among three dimensions and propose two optimization insights. Through preliminary experiments, we validate their correctness and effectiveness, offering potential directions for future research.
- Abstract(参考訳): 大規模言語モデル (LLMs) が進むにつれ、機械生成テキスト (MGTs) はますます流動的で質が高く、情報的になっている。
既存の広帯域MGT検出器は、MGTを識別して、盗聴や誤報の拡散を防ぐように設計されている。
しかし、敵はMGTを回避(回避攻撃と呼ばれる)するためにMGTを人間化しようと試み、MGT検出器をバイパスするためにはわずかな修正しか必要としない。
残念なことに、既存の攻撃は一般的に、異なる実験設定、モデルアーキテクチャ、データセットを使用して評価されるため、統一的で包括的な評価フレームワークが欠如している。
このギャップを埋めるために、MGT検出器に対する回避攻撃を評価するための最初の総合ベンチマークであるText-Humanization Benchmark (TH-Bench)を導入する。
TH-Benchは、有効性、テキスト品質、計算オーバーヘッドの3つの重要な側面にわたる攻撃を評価する。
大規模な実験では、6つのデータセットにわたる13のMGT検出器に対する6つの最先端攻撃を評価し、19のドメインにまたがって11のLLMによって生成される。
以上の結果から,3次元に1回の攻撃が及ばないことが判明した。
詳細な分析を通じて、異なる攻撃の強さと限界を強調した。
さらに重要なことは、3次元間のトレードオフを特定し、2つの最適化の洞察を提案することである。
予備実験を通じてそれらの正しさと有効性を検証し,今後の研究の方向性を示す。
関連論文リスト
- Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training [13.239171999837287]
我々は、GREedy Adversary Promoted DefendER(GREATER)という、堅牢なMGT検出器をトレーニングするための対角的フレームワークを導入する。
9つのテキスト摂動戦略と5つの敵攻撃による実験結果から,我々のGREATER-DはSOTA防御法と比較して攻撃成功率(ASR)を10.61%削減することが示された。
論文 参考訳(メタデータ) (2025-02-18T10:48:53Z) - On the Generalization and Adaptation Ability of Machine-Generated Text Detectors in Academic Writing [23.434925348283617]
本研究では,MGT検出器の一般化と適応性について,学術書誌に特有の3つの重要な側面で検討する。
ドメイン内設定とドメイン間設定の両方において、バイナリ分類および帰属タスクのための様々な検出器の性能をベンチマークする。
本研究は,MGT検出器の多種多様なシナリオにおける一般化と適応性に関する知見を提供し,ロバストで適応的な検出システム構築の基礎を築いた。
論文 参考訳(メタデータ) (2024-12-23T03:30:34Z) - Stumbling Blocks: Stress Testing the Robustness of Machine-Generated
Text Detectors Under Attacks [48.32116554279759]
一般的な機械生成テキスト検出器の強靭性について,編集,パラフレージング,プロンプト,コジェネレーションの様々なカテゴリの攻撃下で検討する。
我々の攻撃はジェネレータLSMへの限られたアクセスを前提としており、異なる予算レベルで異なる攻撃に対する検出器の性能を比較する。
全ての検知器を平均すると、全ての攻撃で性能は35%低下する。
論文 参考訳(メタデータ) (2024-02-18T16:36:00Z) - M4GT-Bench: Evaluation Benchmark for Black-Box Machine-Generated Text Detection [69.41274756177336]
大規模言語モデル (LLMs) は様々なチャネルにまたがる機械生成テキスト (MGT) を前例のない急激な増加をもたらした。
このことは、その潜在的な誤用と社会的意味に関する正当な懸念を提起する。
本稿では,MGT-M4GT-Benchの多言語,マルチドメイン,マルチジェネレータコーパスに基づく新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-02-17T02:50:33Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。