論文の概要: Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety
of Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2305.14384v1
- Date: Mon, 22 May 2023 15:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:35:34.190328
- Title: Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety
of Text-to-Image Models
- Title(参考訳): adversarial nibbler: テキスト対画像モデルの安全性向上のためのデータ中心チャレンジ
- Authors: Alicia Parrish, Hannah Rose Kirk, Jessica Quaye, Charvi Rastogi, Max
Bartolo, Oana Inel, Juan Ciro, Rafael Mosquera, Addison Howard, Will
Cukierski, D. Sculley, Vijay Janapa Reddi, Lora Aroyo
- Abstract要約: Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
- 参考スコア(独自算出の注目度): 6.475537049815622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generative AI revolution in recent years has been spurred by an expansion
in compute power and data quantity, which together enable extensive
pre-training of powerful text-to-image (T2I) models. With their greater
capabilities to generate realistic and creative content, these T2I models like
DALL-E, MidJourney, Imagen or Stable Diffusion are reaching ever wider
audiences. Any unsafe behaviors inherited from pretraining on uncurated
internet-scraped datasets thus have the potential to cause wide-reaching harm,
for example, through generated images which are violent, sexually explicit, or
contain biased and derogatory stereotypes. Despite this risk of harm, we lack
systematic and structured evaluation datasets to scrutinize model behavior,
especially adversarial attacks that bypass existing safety filters. A typical
bottleneck in safety evaluation is achieving a wide coverage of different types
of challenging examples in the evaluation set, i.e., identifying 'unknown
unknowns' or long-tail problems. To address this need, we introduce the
Adversarial Nibbler challenge. The goal of this challenge is to crowdsource a
diverse set of failure modes and reward challenge participants for successfully
finding safety vulnerabilities in current state-of-the-art T2I models.
Ultimately, we aim to provide greater awareness of these issues and assist
developers in improving the future safety and reliability of generative AI
models. Adversarial Nibbler is a data-centric challenge, part of the DataPerf
challenge suite, organized and supported by Kaggle and MLCommons.
- Abstract(参考訳): 近年のジェネレーティブAI革命は、強力なテキスト・ツー・イメージ(T2I)モデルの広範な事前トレーニングを可能にする計算能力とデータ量の拡大によって引き起こされている。
DALL-E、MidJourney、Imagen、およびStable DiffusionなどのT2Iモデルは、現実的でクリエイティブなコンテンツを制作する能力が強まっている。
したがって、未処理のインターネットスクラッドデータセットの事前トレーニングから継承されたあらゆる安全でない行動は、例えば暴力的、性的に露骨な、偏見のあるステレオタイプを含む生成された画像を通じて、広範囲に害を与える可能性がある。
このような危害のリスクにもかかわらず、モデル行動、特に既存の安全フィルタをバイパスする敵攻撃を精査する、体系的で構造化された評価データセットが欠如している。
安全性評価における典型的なボトルネックは、評価セットにおける様々な種類の挑戦的な例、すなわち'未知の未知'または長い尾の問題を特定することである。
このニーズに対処するために、Adversarial Nibbler チャレンジを紹介します。
この課題の目標は、さまざまな障害モードのクラウドソースと、現在の最先端T2Iモデルにおける安全性上の脆弱性の発見に成功して参加者に報いることだ。
最終的には、これらの問題に対するより深い認識の提供と、生成AIモデルの将来の安全性と信頼性向上を支援することを目的としています。
Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
関連論文リスト
- GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [17.50653920106002]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-03-03T09:04:34Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - Harm Amplification in Text-to-Image Models [5.684701566644692]
テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として現れている。
ユーザーが安全と思われるプロンプトを入力しても、有害な画像出力を発生させる可能性については、安全上の懸念がある。
T2Iモデルが入力において明示的でない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクを引き起こす。
論文 参考訳(メタデータ) (2024-02-01T23:12:57Z) - Model Stealing Attack against Graph Classification with Authenticity,
Uncertainty and Diversity [85.1927483219819]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Distilling Adversarial Prompts from Safety Benchmarks: Report for the
Adversarial Nibbler Challenge [32.140659176912735]
テキスト条件付き画像生成モデルは、最近、画像の品質とアライメント結果に驚くべき成果を上げている。
非常にデータ駆動であり、Webからランダムにスクラップされた数十億規模のデータセットに依存しているため、安全でないコンテンツも生成する。
Adversarial Nibblerチャレンジへのコントリビューションとして、既存の安全ベンチマークから1,000以上の潜在的な敵入力を抽出する。
収集したプロンプトと対応する画像の解析は,入力フィルタの脆弱さを実証し,現在の生成画像モデルにおける系統的安全性問題に関するさらなる知見を提供する。
論文 参考訳(メタデータ) (2023-09-20T18:25:44Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Wild Face Anti-Spoofing Challenge 2023: Benchmark and Results [73.98594459933008]
顔認証システム(FAS)は、顔認識システムの完全性を保護するための重要なメカニズムである。
この制限は、公開可能なFASデータセットの不足と多様性の欠如に起因する可能性がある。
制約のない環境で収集された大規模で多様なFASデータセットであるWild Face Anti-Spoofingデータセットを紹介した。
論文 参考訳(メタデータ) (2023-04-12T10:29:42Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。