論文の概要: Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2403.12075v3
- Date: Tue, 14 May 2024 01:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 19:01:48.965775
- Title: Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation
- Title(参考訳): Adversarial Nibbler: テキスト・画像生成における様々なハームの同定のためのオープンなレッドチーム化手法
- Authors: Jessica Quaye, Alicia Parrish, Oana Inel, Charvi Rastogi, Hannah Rose Kirk, Minsuk Kahng, Erin van Liemt, Max Bartolo, Jess Tsang, Justin White, Nathan Clement, Rafael Mosquera, Juan Ciro, Vijay Janapa Reddi, Lora Aroyo,
- Abstract要約: 私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
- 参考スコア(独自算出の注目度): 19.06501699814924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of text-to-image (T2I) generative AI models reaching wide audiences, it is critical to evaluate model robustness against non-obvious attacks to mitigate the generation of offensive images. By focusing on ``implicitly adversarial'' prompts (those that trigger T2I models to generate unsafe images for non-obvious reasons), we isolate a set of difficult safety issues that human creativity is well-suited to uncover. To this end, we built the Adversarial Nibbler Challenge, a red-teaming methodology for crowdsourcing a diverse set of implicitly adversarial prompts. We have assembled a suite of state-of-the-art T2I models, employed a simple user interface to identify and annotate harms, and engaged diverse populations to capture long-tail safety issues that may be overlooked in standard testing. The challenge is run in consecutive rounds to enable a sustained discovery and analysis of safety pitfalls in T2I models. In this paper, we present an in-depth account of our methodology, a systematic study of novel attack strategies and discussion of safety failures revealed by challenge participants. We also release a companion visualization tool for easy exploration and derivation of insights from the dataset. The first challenge round resulted in over 10k prompt-image pairs with machine annotations for safety. A subset of 1.5k samples contains rich human annotations of harm types and attack styles. We find that 14% of images that humans consider harmful are mislabeled as ``safe'' by machines. We have identified new attack strategies that highlight the complexity of ensuring T2I model robustness. Our findings emphasize the necessity of continual auditing and adaptation as new vulnerabilities emerge. We are confident that this work will enable proactive, iterative safety assessments and promote responsible development of T2I models.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成AIモデルが広範に普及するにつれて、攻撃的画像の生成を緩和するためには、非回避攻撃に対するモデルロバスト性を評価することが重要である。
単純に敵対する'プロンプトに焦点を合わせることで(不確実な理由から安全でない画像を生成するためにT2Iモデルをトリガーする)、人間の創造性が明らかにするのに適した、一連の困難な安全問題を分離する。
この目的のために、私たちは、暗黙的に敵対的なプロンプトのさまざまなセットをクラウドソーシングするための、レッドチーム方式のAdversarial Nibbler Challengeを構築しました。
我々は、最先端のT2Iモデルの集合を組み立て、害を識別し注釈するシンプルなユーザーインターフェースを採用し、様々な集団を巻き込み、標準テストで見過ごされる可能性のある長期の安全問題を捉えました。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
本稿では,我々の方法論の詳細な説明,新たな攻撃戦略の体系的研究,および課題参加者が明らかにした安全障害の議論について述べる。
また、データセットからのインサイトを簡単に探索し、導出するための視覚化ツールもリリースしています。
最初のチャレンジラウンドでは、安全のためにマシンアノテーションを使用した10万以上のプロンプトイメージペアが実現した。
1.5kサンプルのサブセットには、ハーフタイプとアタックスタイルの豊富な人間のアノテーションが含まれている。
有害と思われる画像の14%は、機械によって「安全」と誤記されている。
我々は,T2Iモデルの堅牢性確保の複雑さを強調する新たな攻撃戦略を特定した。
本研究は,新たな脆弱性が出現するにつれて,継続的な監査と適応の必要性を強調した。
我々は,本研究が積極的かつ反復的な安全性評価を可能にし,T2Iモデルの責任ある開発を促進すると確信している。
関連論文リスト
- Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。
包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。
また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文 参考訳(メタデータ) (2024-05-24T07:44:27Z) - An Analysis of Recent Advances in Deepfake Image Detection in an Evolving Threat Landscape [11.45988746286973]
ディープフェイクまたは合成画像は、オンラインプラットフォームに深刻なリスクをもたらす。
われわれは8つの最先端の検出器を研究し、配備の準備が整っていないと論じている。
論文 参考訳(メタデータ) (2024-04-24T21:21:50Z) - GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [17.50653920106002]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Harm Amplification in Text-to-Image Models [5.397559484007124]
テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として現れている。
ユーザーが安全と思われるプロンプトを入力しても、有害な画像出力を発生させる可能性については、安全上の懸念がある。
T2Iモデルが入力において明示的でない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクを引き起こす。
論文 参考訳(メタデータ) (2024-02-01T23:12:57Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety
of Text-to-Image Models [6.475537049815622]
Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
論文 参考訳(メタデータ) (2023-05-22T15:02:40Z) - CGUA: Context-Guided and Unpaired-Assisted Weakly Supervised Person
Search [54.106662998673514]
本稿では,コンテキストガイドとアンペア支援(CGUA)を弱教師付き人物検索フレームワークとして導入する。
具体的には、クラスタリングプロセスにおけるコンテキスト情報を活用する新しいコンテキストガイドクラスタ(CGC)アルゴリズムを提案する。
本手法は,より多様なラベル付きデータを活用することにより,最先端の教師付き手法に匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T13:57:30Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。