論文の概要: Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors
- arxiv url: http://arxiv.org/abs/2410.01574v2
- Date: Thu, 3 Oct 2024 10:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:54:49.212888
- Title: Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors
- Title(参考訳): AIが生成した画像検出装置の逆のロバスト性について
- Authors: Sina Mavali, Jonas Ricker, David Pape, Yash Sharma, Asja Fischer, Lea Schönherr,
- Abstract要約: 我々は,攻撃シナリオの異なるAIGI検出器の評価を行った。
攻撃によって検出精度が大幅に低下し、検知器に依存するリスクがその利点を上回る程度に低下する可能性がある。
本稿では,これらの攻撃に対して,CLIPをベースとした簡易な防御機構を提案する。
- 参考スコア(独自算出の注目度): 14.284639462471274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generative AI (GenAI) offers countless possibilities for creative and productive tasks, artificially generated media can be misused for fraud, manipulation, scams, misinformation campaigns, and more. To mitigate the risks associated with maliciously generated media, forensic classifiers are employed to identify AI-generated content. However, current forensic classifiers are often not evaluated in practically relevant scenarios, such as the presence of an attacker or when real-world artifacts like social media degradations affect images. In this paper, we evaluate state-of-the-art AI-generated image (AIGI) detectors under different attack scenarios. We demonstrate that forensic classifiers can be effectively attacked in realistic settings, even when the attacker does not have access to the target model and post-processing occurs after the adversarial examples are created, which is standard on social media platforms. These attacks can significantly reduce detection accuracy to the extent that the risks of relying on detectors outweigh their benefits. Finally, we propose a simple defense mechanism to make CLIP-based detectors, which are currently the best-performing detectors, robust against these attacks.
- Abstract(参考訳): 生成AI(GenAI)は創造的で生産的なタスクに数え切れないほどの可能性を提供しますが、人工的に生成されたメディアは詐欺、操作、詐欺、誤情報キャンペーンなどに誤用されます。
悪意のあるメディアに関連するリスクを軽減するために、AI生成コンテンツを特定するために法医学的分類器が使用される。
しかしながら、現在の法医学的分類器は、攻撃者の存在やソーシャルメディアの劣化のような現実世界の人工物が画像に影響を及ぼす場合など、実際的なシナリオでは評価されないことが多い。
本稿では,AIGI(最先端AI生成画像)検出器を異なる攻撃シナリオ下で評価する。
本研究では,攻撃者がターゲットモデルにアクセスできない場合や,ソーシャルメディアプラットフォームで標準となっている敵の例が作成された後に後処理が行われる場合においても,現実的な設定で法医学的分類器を効果的に攻撃できることを実証する。
これらの攻撃は検出精度を著しく低下させ、検出器に依存するリスクがその利点を上回る程度に低下させる。
最後に,これらの攻撃に対して,CLIPをベースとした簡易な防御機構を提案する。
関連論文リスト
- Time-Aware Face Anti-Spoofing with Rotation Invariant Local Binary Patterns and Deep Learning [50.79277723970418]
模倣攻撃は 不正な識別と その後の攻撃者の認証につながる
顔認識と同様に、模倣攻撃も機械学習で検出できる。
本稿では,未使用の機能と時間認識の深層学習戦略を組み合わせることで,高い分類精度を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-27T07:26:10Z) - Imperceptible Face Forgery Attack via Adversarial Semantic Mask [59.23247545399068]
本稿では, 対向性, 可視性に優れた対向性例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。
具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:38:11Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Real is not True: Backdoor Attacks Against Deepfake Detection [9.572726483706846]
本稿では,Bad-Deepfake(Bad-Deepfake)と命名された先駆的パラダイムを導入する。
我々のアプローチはトレーニングデータのサブセットを戦略的に操作することで、トレーニングされたモデルの運用特性に対する不均等な影響を軽減します。
論文 参考訳(メタデータ) (2024-03-11T10:57:14Z) - XAI-Based Detection of Adversarial Attacks on Deepfake Detectors [0.0]
我々は,XAIを用いたディープフェイク検出器に対する敵攻撃を識別するための新しい手法を提案する。
本手法は, ディープフェイクの検出だけでなく, 敵攻撃の可能性に対する理解の向上にも寄与する。
論文 参考訳(メタデータ) (2024-03-05T13:25:30Z) - Evading Forensic Classifiers with Attribute-Conditioned Adversarial
Faces [6.105361899083232]
本研究では,特定の属性セットを用いて,敵対的な偽の顔を生成することができることを示す。
本稿では,StyleGANの機能空間内の逆潜時符号を探索するフレームワークを提案する。
また,メタラーニングに基づく最適化手法を提案し,未知のターゲットモデル上でのトランスファー可能な性能を実現する。
論文 参考訳(メタデータ) (2023-06-22T17:59:55Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Real-World Adversarial Examples involving Makeup Application [58.731070632586594]
フルフェイスメイクを用いた身体的敵攻撃を提案する。
我々の攻撃は、色や位置関連エラーなどのメークアップアプリケーションにおける手動エラーを効果的に克服できる。
論文 参考訳(メタデータ) (2021-09-04T05:29:28Z) - Adversarial Attacks for Tabular Data: Application to Fraud Detection and
Imbalanced Data [3.2458203725405976]
逆の攻撃は、逆の例、つまり、AIシステムが間違った出力を返すように誘導するわずかに変更された入力を生成することを目的としています。
本稿では,不正検出の文脈において,最先端アルゴリズムを不均衡データに適用する新しい手法を提案する。
実験の結果,提案する修正が攻撃成功率に繋がることがわかった。
実世界の生産システムに適用した場合,提案手法は,高度なaiに基づく不正検出手法の堅牢性に重大な脅威を与える可能性を示す。
論文 参考訳(メタデータ) (2021-01-20T08:58:29Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。