論文の概要: Benchmarking Robustness to Adversarial Image Obfuscations
- arxiv url: http://arxiv.org/abs/2301.12993v2
- Date: Wed, 29 Nov 2023 18:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:58:53.832899
- Title: Benchmarking Robustness to Adversarial Image Obfuscations
- Title(参考訳): 逆画像難読化に対するロバストネスのベンチマーク
- Authors: Florian Stimberg, Ayan Chakrabarti, Chun-Ta Lu, Hussein Hazimeh,
Otilia Stretcu, Wei Qiao, Yintao Liu, Merve Kaya, Cyrus Rashtchian, Ariel
Fuxman, Mehmet Tek, Sven Gowal
- Abstract要約: 悪意あるアクターは、機械学習モデルが正しい決定に達するのを防ぐために、イメージを侵害するポリシーを難なくすることができる。
ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。
- 参考スコア(独自算出の注目度): 22.784762155781436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated content filtering and moderation is an important tool that allows
online platforms to build striving user communities that facilitate cooperation
and prevent abuse. Unfortunately, resourceful actors try to bypass automated
filters in a bid to post content that violate platform policies and codes of
conduct. To reach this goal, these malicious actors may obfuscate policy
violating images (e.g. overlay harmful images by carefully selected benign
images or visual patterns) to prevent machine learning models from reaching the
correct decision. In this paper, we invite researchers to tackle this specific
issue and present a new image benchmark. This benchmark, based on ImageNet,
simulates the type of obfuscations created by malicious actors. It goes beyond
ImageNet-$\textrm{C}$ and ImageNet-$\bar{\textrm{C}}$ by proposing general,
drastic, adversarial modifications that preserve the original content intent.
It aims to tackle a more common adversarial threat than the one considered by
$\ell_p$-norm bounded adversaries. We evaluate 33 pretrained models on the
benchmark and train models with different augmentations, architectures and
training methods on subsets of the obfuscations to measure generalization. We
hope this benchmark will encourage researchers to test their models and methods
and try to find new approaches that are more robust to these obfuscations.
- Abstract(参考訳): コンテンツの自動フィルタリングとモデレーションは、オンラインプラットフォームが協力し、乱用を防ぐユーザーコミュニティを構築するための重要なツールである。
残念ながら、リソース豊富なアクターは、プラットフォームポリシーや行動規範に違反したコンテンツを投稿するために、自動フィルタをバイパスしようとする。
この目標を達成するために、これらの悪意あるアクターは、画像(例えば、慎重に選択された良性画像や視覚パターンによって有害な画像をオーバーレイする)に違反するポリシーを難読化して、機械学習モデルが正しい決定に達するのを防ぐことができる。
本稿では,この問題に研究者を招き,新たな画像ベンチマークを提案する。
ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。
ImageNet-$\textrm{C}$ と ImageNet-$\bar{\textrm{C}}$ を超えて、オリジナルコンテンツインテントを保存する汎用的で劇的な逆修正を提案する。
これは$\ell_p$-normの有界敵よりも一般的な敵の脅威に取り組むことを目的としている。
ベンチマークおよびトレーニングモデルにおける33の事前学習モデルの評価を行い,拡張度,アーキテクチャ,訓練方法によって一般化を計測した。
このベンチマークは、研究者が自身のモデルとメソッドをテストし、これらの難解性に対してより堅牢な新しいアプローチを見つけようとすることを願っている。
関連論文リスト
- Image Safeguarding: Reasoning with Conditional Vision Language Model and
Obfuscating Unsafe Content Counterfactually [3.69611312621848]
ソーシャルメディアプラットフォームは、性的行為を描写した画像など、悪意あるアクターが安全でないコンテンツを共有するためにますます利用されている。
主要なプラットフォームでは、人工知能(AI)と人間のモデレーションを使用して、そのような画像を難読化してより安全なものにしている。
難読化画像の2つの重要なニーズは、難読化画像領域の正確な根拠を提供する必要があることである。
論文 参考訳(メタデータ) (2024-01-19T21:38:18Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Privacy Safe Representation Learning via Frequency Filtering Encoder [7.792424517008007]
Adversarial Representation Learning (ARL) は、クライアント側で実行し、画像を難読化するエンコーダを訓練する一般的な手法である。
難読化イメージを安全に送信し、プライバシの懸念なくサーバ上のタスクに使用することができると仮定する。
我々は低域フィルタリングにより拡張された新しいARL手法を導入し、周波数領域で符号化される情報量を制限する。
論文 参考訳(メタデータ) (2022-08-04T06:16:13Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z) - Restricted Black-box Adversarial Attack Against DeepFake Face Swapping [70.82017781235535]
本稿では,顔画像偽造モデルに対する問い合わせを一切必要としない現実的な敵攻撃を提案する。
本手法は,顔の再構成を行う代用モデルに基づいて構築され,置換モデルから非アクセス可能なブラックボックスDeepFakeモデルへの逆例を直接転送する。
論文 参考訳(メタデータ) (2022-04-26T14:36:06Z) - ARIA: Adversarially Robust Image Attribution for Content Provenance [25.217001579437635]
本稿では,不正確な画像帰属を生じさせる有効な逆画像を生成する方法について述べる。
次に,深い視覚的フィンガープリントモデルに対する非知覚的敵対攻撃を防ぐアプローチについて述べる。
結果のモデルは、はるかに堅牢で、不飽和画像でも正確であり、数百万の画像を持つデータベースでも、良好に動作します。
論文 参考訳(メタデータ) (2022-02-25T18:11:45Z) - Improving Robustness with Image Filtering [3.169089186688223]
本稿では、画像の基本ノードとその接続をグラフ構造を介して抽出する、画像グラフエクストラクタ(IGE)と呼ばれる新しい画像フィルタリング手法を提案する。
IGE表現を活用することで、攻撃者がピクセルを絡めて悪意あるパターンを生成できない新しいディフェンスメソッドであるFilting as a Defenseを構築します。
フィルタ画像によるデータ拡張は,データの破損に対するモデルの堅牢性を効果的に改善することを示す。
論文 参考訳(メタデータ) (2021-12-21T14:04:25Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z) - InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。
我々はこの問題を新しい画像難読化フレームワークで解決する。
提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文 参考訳(メタデータ) (2020-05-20T19:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。