論文の概要: Fragile Reconstruction: Adversarial Vulnerability of Reconstruction-Based Detectors for Diffusion-Generated Images
- arxiv url: http://arxiv.org/abs/2604.12781v1
- Date: Tue, 14 Apr 2026 14:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.49265
- Title: Fragile Reconstruction: Adversarial Vulnerability of Reconstruction-Based Detectors for Diffusion-Generated Images
- Title(参考訳): フラジレコンストラクション:拡散生成画像に対する再構成型検出器の逆脆弱性
- Authors: Haoyang Jiang, Mingyang Yi, Shaolei Zhang, Junxian Cai, Qingbin Liu, Xi Chen, Ju Fan,
- Abstract要約: 本研究は,4つの異なる生成バックボーンモデルにおける3つの代表検出器の対向ロバスト性について,系統的評価を行った。
我々は、ホワイトボックスシナリオにおける敵攻撃を構築し、十分に訓練された全ての検出器の性能を低下させる。
また、ある検出器に対する攻撃を他の検出器に転送することもでき、検出器に対する敵攻撃もブラックボックスの設定で構築できることを示す。
- 参考スコア(独自算出の注目度): 32.470971087318695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, detecting AI-generated images produced by diffusion-based models has attracted increasing attention due to their potential threat to safety. Among existing approaches, reconstruction-based methods have emerged as a prominent paradigm for this task. However, we find that such methods exhibit severe security vulnerabilities to adversarial perturbations; that is, by adding imperceptible adversarial perturbations to input images, the detection accuracy of classifiers collapses to near zero. To verify this threat, we present a systematic evaluation of the adversarial robustness of three representative detectors across four diverse generative backbone models. First, we construct adversarial attacks in white-box scenarios, which degrade the performance of all well-trained detectors. Moreover, we find that these attacks demonstrate transferability; specifically, attacks crafted against one detector can be transferred to others, indicating that adversarial attacks on detectors can also be constructed in a black-box setting. Finally, we assess common countermeasures and find that standard defense methods against adversarial attacks provide limited mitigation. We attribute these failures to the low signal-to-noise ratio (SNR) of attacked samples as perceived by the detectors. Overall, our results reveal fundamental security limitations of reconstruction-based detectors and highlight the need to rethink existing detection strategies.
- Abstract(参考訳): 近年,拡散モデルによるAI生成画像の検出が,安全性への脅威から注目されている。
既存の手法の中では、この課題の顕著なパラダイムとして再構築に基づく手法が登場している。
しかし,このような手法は,入力画像に知覚不能な対向的摂動を加えることで,分類器の検出精度をほぼゼロに低下させることで,対向的摂動に対する深刻なセキュリティ上の脆弱性を示すことがわかった。
この脅威を検証するために,4つの異なる生成バックボーンモデルを用いた3つの代表検出器の対向ロバスト性を体系的に評価した。
まず、ホワイトボックスシナリオにおける敵攻撃を構築し、よく訓練された検出器の性能を低下させる。
さらに、これらの攻撃は伝達可能性を示し、具体的には、ある検出器に対する攻撃を他の検出器に移すことができ、検出器に対する敵攻撃もブラックボックスの設定で構築できることを示す。
最後に、一般的な対策の評価を行い、敵攻撃に対する標準的な防御方法が限定的な緩和効果をもたらすことを見出した。
これらの故障は, 検知器が認識した攻撃試料の低信号-雑音比(SNR)に起因する。
以上の結果から,再建型検出器の基本的なセキュリティ上の限界が明らかとなり,既存の検出戦略を再考する必要性が浮き彫りになった。
関連論文リスト
- MirGuard: Towards a Robust Provenance-based Intrusion Detection System Against Graph Manipulation Attacks [13.92935628832727]
MirGuardは、ロジック対応のマルチビュー拡張とコントラスト表現学習を組み合わせた異常検出フレームワークである。
MirGuardは、さまざまなグラフ操作攻撃に対して、最先端の検出器の堅牢性を大幅に上回っている。
論文 参考訳(メタデータ) (2025-08-14T13:35:51Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Unleashing the Power of Pre-trained Encoders for Universal Adversarial Attack Detection [21.03032944637112]
アドリアック攻撃は、現実世界のAIシステムにとって重要なセキュリティ脅威となる。
本稿では,大規模事前学習型視覚言語モデルCLIPに基づく,軽量な逆検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-01T05:21:45Z) - Detecting Adversarial Data using Perturbation Forgery [28.237738842260615]
逆検出は、自然データと逆データの間の分布とノイズパターンの相違に基づいて、データフローから逆データを特定し、フィルタリングすることを目的としている。
不均衡および異方性雑音パターンを回避した生成モデルに基づく新しい攻撃
本研究では,ノイズ分布,スパースマスク生成,擬似逆数データ生成を含む摂動フォージェリを提案し,不明瞭な勾配ベース,生成型および物理的逆数攻撃を検出可能な逆数検出器を訓練する。
論文 参考訳(メタデータ) (2024-05-25T13:34:16Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。
本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T09:55:03Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z) - Detection Defense Against Adversarial Attacks with Saliency Map [7.736844355705379]
ニューラルネットワークは、人間の視覚にほとんど受容できない敵の例に弱いことがよく確認されている。
既存の防衛は、敵の攻撃に対するモデルの堅牢性を強化する傾向にある。
本稿では,新たな雑音と組み合わせた新しい手法を提案し,不整合戦略を用いて敵のサンプルを検出する。
論文 参考訳(メタデータ) (2020-09-06T13:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。