論文の概要: Distilling Adversarial Prompts from Safety Benchmarks: Report for the
Adversarial Nibbler Challenge
- arxiv url: http://arxiv.org/abs/2309.11575v1
- Date: Wed, 20 Sep 2023 18:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:02:55.716337
- Title: Distilling Adversarial Prompts from Safety Benchmarks: Report for the
Adversarial Nibbler Challenge
- Title(参考訳): 安全基準からの反対意見の蒸留:反対者ニブラーチャレンジの報告
- Authors: Manuel Brack, Patrick Schramowski, Kristian Kersting
- Abstract要約: テキスト条件付き画像生成モデルは、最近、画像の品質とアライメント結果に驚くべき成果を上げている。
非常にデータ駆動であり、Webからランダムにスクラップされた数十億規模のデータセットに依存しているため、安全でないコンテンツも生成する。
Adversarial Nibblerチャレンジへのコントリビューションとして、既存の安全ベンチマークから1,000以上の潜在的な敵入力を抽出する。
収集したプロンプトと対応する画像の解析は,入力フィルタの脆弱さを実証し,現在の生成画像モデルにおける系統的安全性問題に関するさらなる知見を提供する。
- 参考スコア(独自算出の注目度): 32.140659176912735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-conditioned image generation models have recently achieved astonishing
image quality and alignment results. Consequently, they are employed in a
fast-growing number of applications. Since they are highly data-driven, relying
on billion-sized datasets randomly scraped from the web, they also produce
unsafe content. As a contribution to the Adversarial Nibbler challenge, we
distill a large set of over 1,000 potential adversarial inputs from existing
safety benchmarks. Our analysis of the gathered prompts and corresponding
images demonstrates the fragility of input filters and provides further
insights into systematic safety issues in current generative image models.
- Abstract(参考訳): テキスト条件付き画像生成モデルは最近、画像品質とアライメントの結果を驚くべきものにしている。
その結果、急速に成長するアプリケーションに採用されている。
非常にデータ駆動であり、Webからランダムにスクラップされた数十億規模のデータセットに依存しているため、安全でないコンテンツも生成する。
Adversarial Nibblerチャレンジへのコントリビューションとして、既存の安全ベンチマークから1,000以上の潜在的な敵入力を抽出する。
収集したプロンプトとそれに対応する画像の解析は,入力フィルタの脆弱性を示し,現在の生成画像モデルにおける系統的安全性に関するさらなる知見を提供する。
関連論文リスト
- When Image Generation Goes Wrong: A Safety Analysis of Stable Diffusion Models [0.0]
本研究では,10種類の安定拡散モデルによる有害画像の生成能力について検討した。
これらのモデルが不適切なコンテンツを生成することによって有害なプロンプトに応答することを示す。
以上の結果から,観察されたモデルでは,拒絶行動や安全対策が完全に欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-11-23T10:42:43Z) - Semi-Truths: A Large-Scale Dataset of AI-Augmented Images for Evaluating Robustness of AI-Generated Image detectors [62.63467652611788]
実画像27,600枚、223,400枚、AI拡張画像1,472,700枚を含むSEMI-TRUTHSを紹介する。
それぞれの画像には、検出器のロバスト性の標準化と目標評価のためのメタデータが添付されている。
以上の結果から,現状の検出器は摂動の種類や程度,データ分布,拡張方法に様々な感度を示すことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T01:17:27Z) - UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images [29.913089752247362]
画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。
まず、安全または安全でないと注釈付けされた10Kの現実世界とAI生成画像の大規模なデータセットをキュレートする。
次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2024-05-06T13:57:03Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety
of Text-to-Image Models [6.475537049815622]
Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
論文 参考訳(メタデータ) (2023-05-22T15:02:40Z) - Surveillance Face Anti-spoofing [81.50018853811895]
Face Anti-Spoofing (FAS) は、様々な物理的攻撃から顔認識システムを保護するために不可欠である。
本稿では,画像品質による性能劣化を軽減するために,コントラスト品質不変学習(CQIL)ネットワークを提案する。
多くの実験がSuHiFiMaskデータセットの品質と提案したCQILの優位性を検証する。
論文 参考訳(メタデータ) (2023-01-03T07:09:57Z) - Robust Real-World Image Super-Resolution against Adversarial Attacks [115.04009271192211]
準知覚不可能な雑音を持つ逆画像サンプルは、深層学習SRモデルを脅かす可能性がある。
本稿では,現実のSRに対して,潜在的な敵対的雑音をランダムに消去する頑健なディープラーニングフレームワークを提案する。
提案手法は敵攻撃に敏感であり,既存のモデルや防御よりも安定なSR結果を示す。
論文 参考訳(メタデータ) (2022-07-31T13:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。