論文の概要: Groot: Adversarial Testing for Generative Text-to-Image Models with
Tree-based Semantic Transformation
- arxiv url: http://arxiv.org/abs/2402.12100v1
- Date: Mon, 19 Feb 2024 12:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:38:01.266227
- Title: Groot: Adversarial Testing for Generative Text-to-Image Models with
Tree-based Semantic Transformation
- Title(参考訳): Groot:木に基づくセマンティック変換を用いた生成テキスト・画像モデルの逆テスト
- Authors: Yi Liu, Guowei Yang, Gelei Deng, Feiyue Chen, Yuqi Chen, Ling Shi,
Tianwei Zhang, and Yang Liu
- Abstract要約: NSFW(Not-Safe-For-Work)コンテンツを生成するために,このようなモデルを誘導できるかどうかを調査するために,敵の試験技術が開発されている。
Grootは、木に基づくセマンティックトランスフォーメーションを利用した最初の自動化フレームワークで、テキスト・ツー・イメージモデルの対角テストを行う。
我々はGrootの有効性を総合的に検証し、現在最先端のアプローチの性能を上回るだけでなく、主要なテキスト・画像モデルにおいて顕著な成功率(93.66%)を達成している。
- 参考スコア(独自算出の注目度): 16.79414725225863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the prevalence of text-to-image generative models, their safety becomes
a critical concern. adversarial testing techniques have been developed to probe
whether such models can be prompted to produce Not-Safe-For-Work (NSFW)
content. However, existing solutions face several challenges, including low
success rate and inefficiency. We introduce Groot, the first automated
framework leveraging tree-based semantic transformation for adversarial testing
of text-to-image models. Groot employs semantic decomposition and sensitive
element drowning strategies in conjunction with LLMs to systematically refine
adversarial prompts. Our comprehensive evaluation confirms the efficacy of
Groot, which not only exceeds the performance of current state-of-the-art
approaches but also achieves a remarkable success rate (93.66%) on leading
text-to-image models such as DALL-E 3 and Midjourney.
- Abstract(参考訳): テキストから画像への生成モデルの普及により、それらの安全性は重要な関心事となる。
NSFW(Not-Safe-For-Work)コンテンツを生成するために,このようなモデルを誘導できるかどうかを調査するために,敵の試験技術が開発された。
しかし、既存のソリューションは、成功率や非効率性など、いくつかの課題に直面している。
テキストから画像へのモデルの逆テストにツリーベースのセマンティクス変換を利用する最初の自動化フレームワークであるgrootを紹介する。
grootはsemantic decomposition と sensitive element drowning strategy をllmと共に採用し、敵対的プロンプトを体系的に洗練している。
DALL-E 3 や Midjourney のような主要なテキスト・ツー・イメージモデルにおいて,Groot の有効性は現状の手法の性能を上回るだけでなく,顕著な成功率 (93.66%) を達成している。
関連論文リスト
- SteerDiff: Steering towards Safe Text-to-Image Diffusion Models [5.781285400461636]
テキスト・ツー・イメージ(T2I)拡散モデルは不適切なコンテンツを生成するために誤用することができる。
本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。
提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。
論文 参考訳(メタデータ) (2024-10-03T17:34:55Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。
包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。
また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文 参考訳(メタデータ) (2024-05-24T07:44:27Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - GR-GAN: Gradual Refinement Text-to-image Generation [15.99543073122574]
本稿では, この問題を効果的に緩和するために, GR-GAN(Gradual Refinement Generative Adversarial Network)を提案する。
GRGモジュールは、対応するテキスト制約で低解像度から高解像度の画像を生成するように設計されている。
ITMモジュールは、文-画像レベルと単語-領域レベルの両方で画像-テキスト整合損失を提供するように設計されている。
論文 参考訳(メタデータ) (2022-05-23T12:42:04Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。