論文の概要: MASH: Evading Black-Box AI-Generated Text Detectors via Style Humanization
- arxiv url: http://arxiv.org/abs/2601.08564v1
- Date: Tue, 13 Jan 2026 13:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.221419
- Title: MASH: Evading Black-Box AI-Generated Text Detectors via Style Humanization
- Title(参考訳): MASH: スタイルヒューマニゼーションによるブラックボックスAI生成テキスト検出の活用
- Authors: Yongtong Gu, Songze Li, Xia Hu,
- Abstract要約: スタイル転送に基づくブラックボックス検出を回避できる新しいフレームワークを提案する。
MASHは平均攻撃成功率(ASR)が92%に達し、最強のベースラインを平均24%上回っている。
- 参考スコア(独自算出の注目度): 38.15959454898661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing misuse of AI-generated texts (AIGT) has motivated the rapid development of AIGT detection methods. However, the reliability of these detectors remains fragile against adversarial evasions. Existing attack strategies often rely on white-box assumptions or demand prohibitively high computational and interaction costs, rendering them ineffective under practical black-box scenarios. In this paper, we propose Multi-stage Alignment for Style Humanization (MASH), a novel framework that evades black-box detectors based on style transfer. MASH sequentially employs style-injection supervised fine-tuning, direct preference optimization, and inference-time refinement to shape the distributions of AI-generated texts to resemble those of human-written texts. Experiments across 6 datasets and 5 detectors demonstrate the superior performance of MASH over 11 baseline evaders. Specifically, MASH achieves an average Attack Success Rate (ASR) of 92%, surpassing the strongest baselines by an average of 24%, while maintaining superior linguistic quality.
- Abstract(参考訳): AI生成テキスト(AIGT)の誤用の増加はAIGT検出手法の急速な発展を動機付けている。
しかし、これらの検出器の信頼性は、敵の回避に対して脆弱なままである。
既存の攻撃戦略は、しばしばホワイトボックスの仮定や要求に頼り、計算と相互作用のコストが著しく高く、実用的なブラックボックスのシナリオでは効果がない。
本稿では,スタイル伝達に基づくブラックボックス検出を回避した新しいフレームワークであるMulti-stage Alignment for Style Humanization (MASH)を提案する。
MASHは、AI生成テキストの分布を人文テキストに類似させるために、スタイルインジェクション制御された微調整、直接選好最適化、推論時間改善を順次採用している。
6つのデータセットと5つの検出器にわたる実験は、11のベースラインエバーダよりも優れたMASH性能を示す。
具体的には、MASHは平均的な攻撃成功率(ASR)が92%に達し、言語的品質を維持しながら、最強のベースラインを平均24%上回っている。
関連論文リスト
- Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text [47.84655968112988]
本稿では、AI生成したテキストを普遍的に人間化し、検出をより効果的に回避する、トレーニング不要な攻撃フレームワークであるAdversarial Paraphrasingを紹介する。
我々の攻撃は広範囲に効果があり、複数の検知システムにまたがって非常に伝達可能である。
論文 参考訳(メタデータ) (2025-06-08T05:15:01Z) - Humanizing the Machine: Proxy Attacks to Mislead LLM Detectors [31.18762591875725]
我々は、大規模言語モデル(LLM)を懸命に妥協するプロキシ・アタック戦略を導入する。
提案手法は, 復号相における強化学習 (RL) の微調整による小型言語モデル (SLM) を活用することで, 情報源モデルを攻撃する。
以上の結果から,プロキシアタック戦略は主要な検出器を効果的に騙し,複数のデータセットで平均70.4%のAUROC低下を招いた。
論文 参考訳(メタデータ) (2024-10-25T00:35:00Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。