論文の概要: Robustness of AI-Image Detectors: Fundamental Limits and Practical
Attacks
- arxiv url: http://arxiv.org/abs/2310.00076v2
- Date: Wed, 14 Feb 2024 07:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 19:36:16.576833
- Title: Robustness of AI-Image Detectors: Fundamental Limits and Practical
Attacks
- Title(参考訳): AI画像検出器のロバスト性:基本限界と実用的攻撃
- Authors: Mehrdad Saberi, Vinu Sankar Sadasivan, Keivan Rezaei, Aounon Kumar,
Atoosa Chegini, Wenxiao Wang, Soheil Feizi
- Abstract要約: 我々は、透かしやディープフェイク検出器を含む様々なAI画像検出器の堅牢性を分析する。
ウォーターマーキング手法は,攻撃者が実際の画像をウォーターマーキングとして識別することを目的としたスプーフ攻撃に対して脆弱であることを示す。
- 参考スコア(独自算出の注目度): 47.04650443491879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In light of recent advancements in generative AI models, it has become
essential to distinguish genuine content from AI-generated one to prevent the
malicious usage of fake materials as authentic ones and vice versa. Various
techniques have been introduced for identifying AI-generated images, with
watermarking emerging as a promising approach. In this paper, we analyze the
robustness of various AI-image detectors including watermarking and
classifier-based deepfake detectors. For watermarking methods that introduce
subtle image perturbations (i.e., low perturbation budget methods), we reveal a
fundamental trade-off between the evasion error rate (i.e., the fraction of
watermarked images detected as non-watermarked ones) and the spoofing error
rate (i.e., the fraction of non-watermarked images detected as watermarked
ones) upon an application of diffusion purification attack. To validate our
theoretical findings, we also provide empirical evidence demonstrating that
diffusion purification effectively removes low perturbation budget watermarks
by applying minimal changes to images. The diffusion purification attack is
ineffective for high perturbation watermarking methods where notable changes
are applied to images. In this case, we develop a model substitution
adversarial attack that can successfully remove watermarks. Moreover, we show
that watermarking methods are vulnerable to spoofing attacks where the attacker
aims to have real images identified as watermarked ones, damaging the
reputation of the developers. In particular, with black-box access to the
watermarking method, a watermarked noise image can be generated and added to
real images, causing them to be incorrectly classified as watermarked. Finally,
we extend our theory to characterize a fundamental trade-off between the
robustness and reliability of classifier-based deep fake detectors and
demonstrate it through experiments.
- Abstract(参考訳): 生成型AIモデルの最近の進歩を踏まえると、偽物の悪用を防ぐために、真偽のコンテンツをAI生成したものと区別することが不可欠になっている。
AI生成画像の識別には様々な技術が導入されており、透かしは有望なアプローチとして現れている。
本稿では,透かしや分類器を用いたディープフェイク検出器を含むAI画像検出器の堅牢性について解析する。
微妙な画像摂動を導入する透かし法(低摂動予算法)では、拡散浄化攻撃の適用により、回避誤差率(非透かし画像として検出される透かし画像の割合)と偽造誤差率(非透かし画像として検出される非透かし画像の割合)の基本的なトレードオフを明らかにする。
また, 拡散浄化が画像に最小限の変更を加えることで, 低摂動予算の透かしを効果的に除去することを示す実証的証拠を提供する。
拡散浄化攻撃は画像に顕著な変化が加えられる高摂動透かし法には効果がない。
本稿では,透かしの除去に成功したモデル置換逆行攻撃を開発する。
さらに,ウォーターマーキング手法は,攻撃者が実際のイメージをウォーターマーキングと認識し,開発者の評判を損なうようなスプーフィング攻撃に対して脆弱であることを示す。
特に、透かし方法へのブラックボックスアクセスにより、透かし付きノイズ画像を生成して実画像に追加することができ、誤って透かしとして分類される。
最後に,分類器に基づくディープフェイク検出器のロバスト性と信頼性との根本的なトレードオフを特徴付けるために理論を拡張し,実験により実証する。
関連論文リスト
- Social Media Authentication and Combating Deepfakes using Semi-fragile Invisible Image Watermarking [6.246098300155482]
本稿では,メディア認証のために,見えない秘密メッセージを実画像に埋め込む半フレジブルな画像透かし手法を提案する。
提案するフレームワークは,顔の操作や改ざんに対して脆弱であると同時に,画像処理操作や透かし除去攻撃に対して頑健であるように設計されている。
論文 参考訳(メタデータ) (2024-10-02T18:05:03Z) - Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。
生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-04T13:59:09Z) - Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。
ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。
本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文 参考訳(メタデータ) (2024-07-04T17:56:04Z) - A Transfer Attack to Image Watermarks [1.656188668325832]
本研究では,Non-box設定における画像透かしに対する新しい転送回避攻撃を提案する。
私たちの主な貢献は、理論的にも経験的にも、透かしベースのAI生成画像検出器は、回避攻撃に対して堅牢ではないことを示すことです。
論文 参考訳(メタデータ) (2024-03-22T17:33:11Z) - RAW: A Robust and Agile Plug-and-Play Watermark Framework for AI-Generated Images with Provable Guarantees [33.61946642460661]
本稿ではRAWと呼ばれる堅牢でアジャイルな透かし検出フレームワークを紹介する。
我々は、透かしの存在を検出するために、透かしと共同で訓練された分類器を用いる。
このフレームワークは,透かし画像の誤分類に対する偽陽性率に関する証明可能な保証を提供する。
論文 参考訳(メタデータ) (2024-01-23T22:00:49Z) - WAVES: Benchmarking the Robustness of Image Watermarks [67.955140223443]
WAVES(Watermark Analysis Via Enhanced Stress-testing)は、画像透かしの堅牢性を評価するためのベンチマークである。
我々は,検出タスクと識別タスクを統合し,多様なストレステストからなる標準化された評価プロトコルを確立する。
我々はWAVESを,ロバストな透かしの将来の開発のためのツールキットとして想定する。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - Invisible Image Watermarks Are Provably Removable Using Generative AI [47.25747266531665]
Invisibleの透かしは、所有者によってのみ検出可能な隠されたメッセージを埋め込むことで、画像の著作権を保護する。
我々は、これらの見えない透かしを取り除くために、再生攻撃のファミリーを提案する。
提案手法は,まず画像にランダムノイズを加えて透かしを破壊し,画像を再構成する。
論文 参考訳(メタデータ) (2023-06-02T23:29:28Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。