論文の概要: Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety
of Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2305.14384v1
- Date: Mon, 22 May 2023 15:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:35:34.190328
- Title: Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety
of Text-to-Image Models
- Title(参考訳): adversarial nibbler: テキスト対画像モデルの安全性向上のためのデータ中心チャレンジ
- Authors: Alicia Parrish, Hannah Rose Kirk, Jessica Quaye, Charvi Rastogi, Max
Bartolo, Oana Inel, Juan Ciro, Rafael Mosquera, Addison Howard, Will
Cukierski, D. Sculley, Vijay Janapa Reddi, Lora Aroyo
- Abstract要約: Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
- 参考スコア(独自算出の注目度): 6.475537049815622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generative AI revolution in recent years has been spurred by an expansion
in compute power and data quantity, which together enable extensive
pre-training of powerful text-to-image (T2I) models. With their greater
capabilities to generate realistic and creative content, these T2I models like
DALL-E, MidJourney, Imagen or Stable Diffusion are reaching ever wider
audiences. Any unsafe behaviors inherited from pretraining on uncurated
internet-scraped datasets thus have the potential to cause wide-reaching harm,
for example, through generated images which are violent, sexually explicit, or
contain biased and derogatory stereotypes. Despite this risk of harm, we lack
systematic and structured evaluation datasets to scrutinize model behavior,
especially adversarial attacks that bypass existing safety filters. A typical
bottleneck in safety evaluation is achieving a wide coverage of different types
of challenging examples in the evaluation set, i.e., identifying 'unknown
unknowns' or long-tail problems. To address this need, we introduce the
Adversarial Nibbler challenge. The goal of this challenge is to crowdsource a
diverse set of failure modes and reward challenge participants for successfully
finding safety vulnerabilities in current state-of-the-art T2I models.
Ultimately, we aim to provide greater awareness of these issues and assist
developers in improving the future safety and reliability of generative AI
models. Adversarial Nibbler is a data-centric challenge, part of the DataPerf
challenge suite, organized and supported by Kaggle and MLCommons.
- Abstract(参考訳): 近年のジェネレーティブAI革命は、強力なテキスト・ツー・イメージ(T2I)モデルの広範な事前トレーニングを可能にする計算能力とデータ量の拡大によって引き起こされている。
DALL-E、MidJourney、Imagen、およびStable DiffusionなどのT2Iモデルは、現実的でクリエイティブなコンテンツを制作する能力が強まっている。
したがって、未処理のインターネットスクラッドデータセットの事前トレーニングから継承されたあらゆる安全でない行動は、例えば暴力的、性的に露骨な、偏見のあるステレオタイプを含む生成された画像を通じて、広範囲に害を与える可能性がある。
このような危害のリスクにもかかわらず、モデル行動、特に既存の安全フィルタをバイパスする敵攻撃を精査する、体系的で構造化された評価データセットが欠如している。
安全性評価における典型的なボトルネックは、評価セットにおける様々な種類の挑戦的な例、すなわち'未知の未知'または長い尾の問題を特定することである。
このニーズに対処するために、Adversarial Nibbler チャレンジを紹介します。
この課題の目標は、さまざまな障害モードのクラウドソースと、現在の最先端T2Iモデルにおける安全性上の脆弱性の発見に成功して参加者に報いることだ。
最終的には、これらの問題に対するより深い認識の提供と、生成AIモデルの将来の安全性と信頼性向上を支援することを目的としています。
Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
関連論文リスト
- LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Mind Your Questions! Towards Backdoor Attacks on Text-to-Visualization Models [21.2448592823259]
VisPoisonは、これらのテキスト・ツー・ビジュアライゼーションモデルの脆弱性を体系的に識別するように設計されたフレームワークである。
我々は、VisPoisonが90%以上の攻撃成功率を達成したことを示し、現在のテキスト・ツー・ビジターモデルのセキュリティ問題を強調した。
論文 参考訳(メタデータ) (2024-10-09T11:22:03Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - Harm Amplification in Text-to-Image Models [5.397559484007124]
テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として現れている。
ユーザーが安全と思われるプロンプトを入力しても、有害な画像出力を発生させる可能性については、安全上の懸念がある。
T2Iモデルが入力プロンプトで明示されていない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクを引き起こす。
論文 参考訳(メタデータ) (2024-02-01T23:12:57Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Distilling Adversarial Prompts from Safety Benchmarks: Report for the
Adversarial Nibbler Challenge [32.140659176912735]
テキスト条件付き画像生成モデルは、最近、画像の品質とアライメント結果に驚くべき成果を上げている。
非常にデータ駆動であり、Webからランダムにスクラップされた数十億規模のデータセットに依存しているため、安全でないコンテンツも生成する。
Adversarial Nibblerチャレンジへのコントリビューションとして、既存の安全ベンチマークから1,000以上の潜在的な敵入力を抽出する。
収集したプロンプトと対応する画像の解析は,入力フィルタの脆弱さを実証し,現在の生成画像モデルにおける系統的安全性問題に関するさらなる知見を提供する。
論文 参考訳(メタデータ) (2023-09-20T18:25:44Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。