Fugu-MT 論文翻訳(概要): Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training

論文の概要: Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training

arxiv url: http://arxiv.org/abs/2502.12734v2
Date: Wed, 30 Apr 2025 00:44:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:52.282634
Title: Iron Sharpens Iron: Defending Against Attacks in Machine-Generated Text Detection with Adversarial Training
Title（参考訳）: アイアンシャーペンス鉄 : 対向訓練による機械によるテキスト検出における攻撃防止
Authors: Yuanfan Li, Zhaohan Zhang, Chengzhengxu Li, Chao Shen, Xiaoming Liu,
Abstract要約: 我々は、GREedy Adversary Promoted DefendER(GREATER)という、堅牢なMGT検出器をトレーニングするための対角的フレームワークを導入する。テキスト摂動10戦略と6対逆攻撃による実験結果から, GREATER-DはSOTA防御法と比較して攻撃成功率(ASR)を0.67%削減することがわかった。
参考スコア（独自算出の注目度）: 13.239171999837287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine-generated Text (MGT) detection is crucial for regulating and attributing online texts. While the existing MGT detectors achieve strong performance, they remain vulnerable to simple perturbations and adversarial attacks. To build an effective defense against malicious perturbations, we view MGT detection from a threat modeling perspective, that is, analyzing the model's vulnerability from an adversary's point of view and exploring effective mitigations. To this end, we introduce an adversarial framework for training a robust MGT detector, named GREedy Adversary PromoTed DefendER (GREATER). The GREATER consists of two key components: an adversary GREATER-A and a detector GREATER-D. The GREATER-D learns to defend against the adversarial attack from GREATER-A and generalizes the defense to other attacks. GREATER-A identifies and perturbs the critical tokens in embedding space, along with greedy search and pruning to generate stealthy and disruptive adversarial examples. Besides, we update the GREATER-A and GREATER-D synchronously, encouraging the GREATER-D to generalize its defense to different attacks and varying attack intensities. Our experimental results across 10 text perturbation strategies and 6 adversarial attacks show that our GREATER-D reduces the Attack Success Rate (ASR) by 0.67% compared with SOTA defense methods while our GREATER-A is demonstrated to be more effective and efficient than SOTA attack approaches. Codes and dataset are available in https://github.com/Liyuuuu111/GREATER.
Abstract（参考訳）: 機械生成テキスト(MGT)の検出は、オンラインテキストの制御と帰属に不可欠である。既存のMGT検出器は高い性能を達成するが、単純な摂動や敵の攻撃に弱いままである。悪意のある摂動に対する効果的な防御を構築するために、脅威モデリングの観点からMGTの検出、すなわち、敵の視点からモデルの脆弱性を分析し、効果的な緩和を探求する。この目的のために,GREedy Adversary PromoTed DefendER (GREATER) という,堅牢なMGT検出器をトレーニングするための対戦フレームワークを導入する。 GREATERは、敵対するGREATER-Aと検出器GREATER-Dの2つの重要な構成要素で構成されている。 GREATER-Dは、GREATER-Aからの敵の攻撃に対して防御することを学び、防衛を他の攻撃に一般化する。 GREATER-Aは、埋め込み空間における重要なトークンを識別し、摂動し、また、難解な探索とプルーニングを行い、ステルスで破壊的な敵の例を生成する。さらに、GREATER-AとGREATER-Dを同期的に更新し、GREATER-Dの防御を様々な攻撃に一般化し、攻撃強度を変化させるよう促す。テキスト摂動10戦略と6つの敵攻撃による実験結果から,攻撃成功率(ASR)はSOTA防御法と比較して0.67%減少し,GREATER-AはSOTA攻撃法よりも効果的で効率的であることが示されている。コードとデータセットはhttps://github.com/Liyuuu111/GREATERで公開されている。

関連論文リスト

DisPatch: Disarming Adversarial Patches in Object Detection with Diffusion Models [8.800216228212824]
最先端のオブジェクト検出器はいまだに敵のパッチ攻撃に弱い。オブジェクト検出のための最初の拡散型防御フレームワークであるDisdisを紹介する。 DISは、隠蔽攻撃と攻撃生成の両方において、最先端の防御を一貫して上回る。
論文参考訳（メタデータ） (2025-09-04T18:20:36Z)
Kill Two Birds with One Stone! Trajectory enabled Unified Online Detection of Adversarial Examples and Backdoor Attacks [25.725726346383322]
提案されたUniGuardは、敵の例とバックドア攻撃に同時に対処できる、最初の統合されたオンライン検出フレームワークである。第一に、AEとバックドア攻撃の両方が推論フェーズを妥協し、オンライン検出を通じて実行中に同時に対処できるようにする必要がある。
論文参考訳（メタデータ） (2025-06-28T02:06:23Z)
Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文参考訳（メタデータ） (2025-05-24T08:19:25Z)
Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses [6.736255552371404]
アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。グレディ・コーディネート・グラディエント(GCG)に対する攻撃成功率(ASR)の報告
論文参考訳（メタデータ） (2025-05-21T16:43:17Z)
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文参考訳（メタデータ） (2025-03-04T20:25:12Z)
Slot: Provenance-Driven APT Detection through Graph Reinforcement Learning [24.84110719035862]
先進的永続脅威(Advanced Persistent Threats、APT)は、長期にわたって検出されていない能力によって特徴づけられる高度なサイバー攻撃である。本稿では,前駆グラフとグラフ強化学習に基づく高度なAPT検出手法であるSlotを提案する。 Slotの卓越した精度、効率、適応性、そしてAPT検出の堅牢性を示し、ほとんどのメトリクスは最先端の手法を超越している。
論文参考訳（メタデータ） (2024-10-23T14:28:32Z)
Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。 MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文参考訳（メタデータ） (2024-04-04T10:10:38Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Effectiveness of Moving Target Defenses for Adversarial Attacks in ML-based Malware Detection [0.0]
近年,敵ML攻撃に対する標的防御(MTD)の移動が提案されている。マルウェア検出領域に適用した敵ML攻撃に対する最近のMTDの有効性を初めて検討した。転送可能性とクエリアタック戦略は,これらの防御に対して高いレベルの回避を達成できることを示す。
論文参考訳（メタデータ） (2023-02-01T16:03:34Z)
Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文参考訳（メタデータ） (2022-12-30T18:45:23Z)
Game Theoretic Mixed Experts for Combinational Adversarial Machine Learning [10.368343314144553]
我々は、敵の攻撃と防御をアンサンブルするためのゲーム理論の枠組みを提供する。本稿では, ランダム化変換, マルチモデル投票方式, 対向検出器アーキテクチャによる防御を目標とする3つの新しい攻撃アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-26T21:35:01Z)
Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文参考訳（メタデータ） (2022-07-20T19:49:09Z)
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文参考訳（メタデータ） (2021-06-01T07:10:54Z)
Guided Adversarial Attack for Evaluating and Enhancing Adversarial Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文参考訳（メタデータ） (2020-11-30T16:39:39Z)
Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文参考訳（メタデータ） (2020-03-03T18:15:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。