論文の概要: Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training
- arxiv url: http://arxiv.org/abs/2502.12734v1
- Date: Tue, 18 Feb 2025 10:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:36.874253
- Title: Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training
- Title(参考訳): アイアンシャーペンス鉄 : 対向訓練による機械によるテキスト検出における攻撃防止
- Authors: Yuanfan Li, Zhaohan Zhang, Chengzhengxu Li, Chao Shen, Xiaoming Liu,
- Abstract要約: 我々は、GREedy Adversary Promoted DefendER(GREATER)という、堅牢なMGT検出器をトレーニングするための対角的フレームワークを導入する。
9つのテキスト摂動戦略と5つの敵攻撃による実験結果から,我々のGREATER-DはSOTA防御法と比較して攻撃成功率(ASR)を10.61%削減することが示された。
- 参考スコア(独自算出の注目度): 13.239171999837287
- License:
- Abstract: Machine-generated Text (MGT) detection is crucial for regulating and attributing online texts. While the existing MGT detectors achieve strong performance, they remain vulnerable to simple perturbations and adversarial attacks. To build an effective defense against malicious perturbations, we view MGT detection from a threat modeling perspective, that is, analyzing the model's vulnerability from an adversary's point of view and exploring effective mitigations. To this end, we introduce an adversarial framework for training a robust MGT detector, named GREedy Adversary PromoTed DefendER (GREATER). The GREATER consists of two key components: an adversary GREATER-A and a detector GREATER-D. The GREATER-D learns to defend against the adversarial attack from GREATER-A and generalizes the defense to other attacks. GREATER-A identifies and perturbs the critical tokens in embedding space, along with greedy search and pruning to generate stealthy and disruptive adversarial examples. Besides, we update the GREATER-A and GREATER-D synchronously, encouraging the GREATER-D to generalize its defense to different attacks and varying attack intensities. Our experimental results across 9 text perturbation strategies and 5 adversarial attacks show that our GREATER-D reduces the Attack Success Rate (ASR) by 10.61% compared with SOTA defense methods while our GREATER-A is demonstrated to be more effective and efficient than SOTA attack approaches.
- Abstract(参考訳): 機械生成テキスト(MGT)の検出は、オンラインテキストの制御と帰属に不可欠である。
既存のMGT検出器は高い性能を達成するが、単純な摂動や敵の攻撃に弱いままである。
悪意のある摂動に対する効果的な防御を構築するために、脅威モデリングの観点からMGTの検出、すなわち、敵の視点からモデルの脆弱性を分析し、効果的な緩和を探求する。
この目的のために,GREedy Adversary PromoTed DefendER (GREATER) という,堅牢なMGT検出器をトレーニングするための対戦フレームワークを導入する。
GREATERは、敵対するGREATER-Aと検出器GREATER-Dの2つの重要な構成要素で構成されている。
GREATER-DはGREATER-Aからの敵の攻撃に対して防御することを学び、他の攻撃に対して防御を一般化する。
GREATER-Aは、埋め込み空間における重要なトークンを識別し、摂動し、また、難解で破壊的な敵の例を生成するための欲求検索やプルーニングも行う。
さらに、GREATER-AとGREATER-Dを同期的に更新し、GREATER-Dが防衛を様々な攻撃に一般化し、攻撃強度を変化させるよう促す。
9つのテキスト摂動戦略と5つの敵攻撃による実験結果から、我々のGREATER-DはSOTA防御法と比較して攻撃成功率(ASR)を10.61%削減し、我々のGREATER-AはSOTA攻撃法よりも効果的で効率的であることが示されている。
関連論文リスト
- Slot: Provenance-Driven APT Detection through Graph Reinforcement Learning [24.84110719035862]
先進的永続脅威(Advanced Persistent Threats、APT)は、長期にわたって検出されていない能力によって特徴づけられる高度なサイバー攻撃である。
本稿では,前駆グラフとグラフ強化学習に基づく高度なAPT検出手法であるSlotを提案する。
Slotの卓越した精度、効率、適応性、そしてAPT検出の堅牢性を示し、ほとんどのメトリクスは最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-10-23T14:28:32Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Effectiveness of Moving Target Defenses for Adversarial Attacks in
ML-based Malware Detection [0.0]
近年,敵ML攻撃に対する標的防御(MTD)の移動が提案されている。
マルウェア検出領域に適用した敵ML攻撃に対する最近のMTDの有効性を初めて検討した。
転送可能性とクエリアタック戦略は,これらの防御に対して高いレベルの回避を達成できることを示す。
論文 参考訳(メタデータ) (2023-02-01T16:03:34Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Game Theoretic Mixed Experts for Combinational Adversarial Machine
Learning [10.368343314144553]
我々は、敵の攻撃と防御をアンサンブルするためのゲーム理論の枠組みを提供する。
本稿では, ランダム化変換, マルチモデル投票方式, 対向検出器アーキテクチャによる防御を目標とする3つの新しい攻撃アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:35:01Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。