論文の概要: Adversarial Robustness of AI-Generated Image Detectors in the Real World
- arxiv url: http://arxiv.org/abs/2410.01574v3
- Date: Tue, 03 Jun 2025 16:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.403821
- Title: Adversarial Robustness of AI-Generated Image Detectors in the Real World
- Title(参考訳): 実世界におけるAI生成画像検出器の逆ロバスト性
- Authors: Sina Mavali, Jonas Ricker, David Pape, Asja Fischer, Lea Schönherr,
- Abstract要約: 現状の最先端分類器は,実環境下での敵例に対して脆弱であることを示す。
ほとんどの攻撃は、例えばソーシャルメディアプラットフォームへのアップロード中に画像が劣化しても有効である。
ケーススタディでは、HIVEに対してブラックボックス攻撃を行うことにより、これらの堅牢性の課題が商用ツールにも見られることを示した。
- 参考スコア(独自算出の注目度): 13.52355280061187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Generative Artificial Intelligence (GenAI) capabilities is accompanied by a concerning rise in its misuse. In particular the generation of credible misinformation in the form of images poses a significant threat to the public trust in democratic processes. Consequently, there is an urgent need to develop tools to reliably distinguish between authentic and AI-generated content. The majority of detection methods are based on neural networks that are trained to recognize forensic artifacts. In this work, we demonstrate that current state-of-the-art classifiers are vulnerable to adversarial examples under real-world conditions. Through extensive experiments, comprising four detection methods and five attack algorithms, we show that an attacker can dramatically decrease classification performance, without internal knowledge of the detector's architecture. Notably, most attacks remain effective even when images are degraded during the upload to, e.g., social media platforms. In a case study, we demonstrate that these robustness challenges are also found in commercial tools by conducting black-box attacks on HIVE, a proprietary online GenAI media detector. In addition, we evaluate the robustness of using generated features of a robust pre-trained model and showed that this increases the robustness, while not reaching the performance on benign inputs. These results, along with the increasing potential of GenAI to erode public trust, underscore the need for more research and new perspectives on methods to prevent its misuse.
- Abstract(参考訳): 生成人工知能(GenAI)の能力の急速な進歩には、その誤用に関する懸念が伴っている。
特に、画像の形での信頼できる偽情報の生成は、民主的プロセスに対する大衆の信頼に重大な脅威をもたらす。
したがって、真偽とAI生成コンテンツを確実に区別するツールを開発する必要がある。
大部分の検出方法は、法医学的アーティファクトを認識するために訓練されたニューラルネットワークに基づいている。
本研究では,現在最先端の分類器が実環境下での敵例に対して脆弱であることを示す。
4つの検出方法と5つの攻撃アルゴリズムからなる広範囲な実験により、攻撃者は検出器の内部知識を必要とせず、分類性能を劇的に低下させることができることを示した。
特に、ソーシャルメディアプラットフォームへのアップロード中に画像が劣化した場合でも、ほとんどの攻撃は有効である。
ケーススタディでは、プロプライエタリなGenAIメディア検出器であるHIVEをブラックボックス攻撃することで、これらの堅牢性の課題が商用ツールにも見られることを示した。
さらに、ロバスト事前学習モデルの生成した特徴を用いたロバスト性を評価し、良性入力の性能に到達せず、ロバスト性を高めることを示した。
これらの結果は、GenAIの公的な信頼を損なう可能性の高まりとともに、その誤用を防ぐための研究と新たな視点の必要性を浮き彫りにしている。
関連論文リスト
- Time-Aware Face Anti-Spoofing with Rotation Invariant Local Binary Patterns and Deep Learning [50.79277723970418]
模倣攻撃は 不正な識別と その後の攻撃者の認証につながる
顔認識と同様に、模倣攻撃も機械学習で検出できる。
本稿では,未使用の機能と時間認識の深層学習戦略を組み合わせることで,高い分類精度を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-27T07:26:10Z) - Vulnerabilities in AI-generated Image Detection: The Challenge of Adversarial Attacks [39.524974831780874]
FPBAはブラックボックス攻撃を成功させることができるので、敵攻撃はAIGI検出器にとって真の脅威であることを示す。
我々はこの手法を周波数ベースのポストトレインベイズアタック (FPBA) と呼ぶ。
論文 参考訳(メタデータ) (2024-07-30T14:07:17Z) - Imperceptible Face Forgery Attack via Adversarial Semantic Mask [59.23247545399068]
本稿では, 対向性, 可視性に優れた対向性例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。
具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:38:11Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Real is not True: Backdoor Attacks Against Deepfake Detection [9.572726483706846]
本稿では,Bad-Deepfake(Bad-Deepfake)と命名された先駆的パラダイムを導入する。
我々のアプローチはトレーニングデータのサブセットを戦略的に操作することで、トレーニングされたモデルの運用特性に対する不均等な影響を軽減します。
論文 参考訳(メタデータ) (2024-03-11T10:57:14Z) - XAI-Based Detection of Adversarial Attacks on Deepfake Detectors [0.0]
我々は,XAIを用いたディープフェイク検出器に対する敵攻撃を識別するための新しい手法を提案する。
本手法は, ディープフェイクの検出だけでなく, 敵攻撃の可能性に対する理解の向上にも寄与する。
論文 参考訳(メタデータ) (2024-03-05T13:25:30Z) - Evading Forensic Classifiers with Attribute-Conditioned Adversarial
Faces [6.105361899083232]
本研究では,特定の属性セットを用いて,敵対的な偽の顔を生成することができることを示す。
本稿では,StyleGANの機能空間内の逆潜時符号を探索するフレームワークを提案する。
また,メタラーニングに基づく最適化手法を提案し,未知のターゲットモデル上でのトランスファー可能な性能を実現する。
論文 参考訳(メタデータ) (2023-06-22T17:59:55Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Real-World Adversarial Examples involving Makeup Application [58.731070632586594]
フルフェイスメイクを用いた身体的敵攻撃を提案する。
我々の攻撃は、色や位置関連エラーなどのメークアップアプリケーションにおける手動エラーを効果的に克服できる。
論文 参考訳(メタデータ) (2021-09-04T05:29:28Z) - Adversarial Attacks for Tabular Data: Application to Fraud Detection and
Imbalanced Data [3.2458203725405976]
逆の攻撃は、逆の例、つまり、AIシステムが間違った出力を返すように誘導するわずかに変更された入力を生成することを目的としています。
本稿では,不正検出の文脈において,最先端アルゴリズムを不均衡データに適用する新しい手法を提案する。
実験の結果,提案する修正が攻撃成功率に繋がることがわかった。
実世界の生産システムに適用した場合,提案手法は,高度なaiに基づく不正検出手法の堅牢性に重大な脅威を与える可能性を示す。
論文 参考訳(メタデータ) (2021-01-20T08:58:29Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。