Fugu-MT 論文翻訳(概要): Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety of Text-to-Image Models

論文の概要: Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety of Text-to-Image Models

arxiv url: http://arxiv.org/abs/2305.14384v1
Date: Mon, 22 May 2023 15:02:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 00:35:34.190328
Title: Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety of Text-to-Image Models
Title（参考訳）: adversarial nibbler: テキスト対画像モデルの安全性向上のためのデータ中心チャレンジ
Authors: Alicia Parrish, Hannah Rose Kirk, Jessica Quaye, Charvi Rastogi, Max Bartolo, Oana Inel, Juan Ciro, Rafael Mosquera, Addison Howard, Will Cukierski, D. Sculley, Vijay Janapa Reddi, Lora Aroyo
Abstract要約: Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
参考スコア（独自算出の注目度）: 6.475537049815622
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The generative AI revolution in recent years has been spurred by an expansion in compute power and data quantity, which together enable extensive pre-training of powerful text-to-image (T2I) models. With their greater capabilities to generate realistic and creative content, these T2I models like DALL-E, MidJourney, Imagen or Stable Diffusion are reaching ever wider audiences. Any unsafe behaviors inherited from pretraining on uncurated internet-scraped datasets thus have the potential to cause wide-reaching harm, for example, through generated images which are violent, sexually explicit, or contain biased and derogatory stereotypes. Despite this risk of harm, we lack systematic and structured evaluation datasets to scrutinize model behavior, especially adversarial attacks that bypass existing safety filters. A typical bottleneck in safety evaluation is achieving a wide coverage of different types of challenging examples in the evaluation set, i.e., identifying 'unknown unknowns' or long-tail problems. To address this need, we introduce the Adversarial Nibbler challenge. The goal of this challenge is to crowdsource a diverse set of failure modes and reward challenge participants for successfully finding safety vulnerabilities in current state-of-the-art T2I models. Ultimately, we aim to provide greater awareness of these issues and assist developers in improving the future safety and reliability of generative AI models. Adversarial Nibbler is a data-centric challenge, part of the DataPerf challenge suite, organized and supported by Kaggle and MLCommons.
Abstract（参考訳）: 近年のジェネレーティブAI革命は、強力なテキスト・ツー・イメージ(T2I)モデルの広範な事前トレーニングを可能にする計算能力とデータ量の拡大によって引き起こされている。 DALL-E、MidJourney、Imagen、およびStable DiffusionなどのT2Iモデルは、現実的でクリエイティブなコンテンツを制作する能力が強まっている。したがって、未処理のインターネットスクラッドデータセットの事前トレーニングから継承されたあらゆる安全でない行動は、例えば暴力的、性的に露骨な、偏見のあるステレオタイプを含む生成された画像を通じて、広範囲に害を与える可能性がある。このような危害のリスクにもかかわらず、モデル行動、特に既存の安全フィルタをバイパスする敵攻撃を精査する、体系的で構造化された評価データセットが欠如している。安全性評価における典型的なボトルネックは、評価セットにおける様々な種類の挑戦的な例、すなわち'未知の未知'または長い尾の問題を特定することである。このニーズに対処するために、Adversarial Nibbler チャレンジを紹介します。この課題の目標は、さまざまな障害モードのクラウドソースと、現在の最先端T2Iモデルにおける安全性上の脆弱性の発見に成功して参加者に報いることだ。最終的には、これらの問題に対するより深い認識の提供と、生成AIモデルの将来の安全性と信頼性向上を支援することを目的としています。 Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。

関連論文リスト

GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文参考訳（メタデータ） (2025-06-11T09:09:12Z)
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [73.6716695218951]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文参考訳（メタデータ） (2025-05-27T15:42:46Z)
No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。 EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文参考訳（メタデータ） (2025-05-12T06:19:59Z)
T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文参考訳（メタデータ） (2025-04-22T01:18:42Z)
Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help [18.70937620674227]
T2ICountBenchは、最先端のテキスト・画像拡散モデルのカウント能力を厳格に評価するために設計された新しいベンチマークである。評価の結果, 物体数の増加に伴い精度が著しく低下し, 全ての拡散モデルが正しい物体数を生成することができないことがわかった。
論文参考訳（メタデータ） (2025-03-10T03:28:18Z)
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-01-30T17:59:45Z)
T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文参考訳（メタデータ） (2025-01-22T03:29:43Z)
LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。不確実性抑制と不確実性誤認の2つの主要な課題を特定します。当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文参考訳（メタデータ） (2024-10-18T09:15:35Z)
Mind Your Questions! Towards Backdoor Attacks on Text-to-Visualization Models [21.2448592823259]
VisPoisonは、これらのテキスト・ツー・ビジュアライゼーションモデルの脆弱性を体系的に識別するように設計されたフレームワークである。我々は、VisPoisonが90%以上の攻撃成功率を達成したことを示し、現在のテキスト・ツー・ビジターモデルのセキュリティ問題を強調した。
論文参考訳（メタデータ） (2024-10-09T11:22:03Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。 T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文参考訳（メタデータ） (2024-07-17T08:19:11Z)
Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文参考訳（メタデータ） (2024-02-14T22:21:12Z)
Harm Amplification in Text-to-Image Models [5.397559484007124]
テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として現れている。ユーザーが安全と思われるプロンプトを入力しても、有害な画像出力を発生させる可能性については、安全上の懸念がある。 T2Iモデルが入力プロンプトで明示されていない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクを引き起こす。
論文参考訳（メタデータ） (2024-02-01T23:12:57Z)
Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文参考訳（メタデータ） (2023-12-18T05:42:31Z)
Identifying and Mitigating Model Failures through Few-shot CLIP-aided Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文参考訳（メタデータ） (2023-12-09T04:43:49Z)
Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge [32.140659176912735]
テキスト条件付き画像生成モデルは、最近、画像の品質とアライメント結果に驚くべき成果を上げている。非常にデータ駆動であり、Webからランダムにスクラップされた数十億規模のデータセットに依存しているため、安全でないコンテンツも生成する。 Adversarial Nibblerチャレンジへのコントリビューションとして、既存の安全ベンチマークから1,000以上の潜在的な敵入力を抽出する。収集したプロンプトと対応する画像の解析は,入力フィルタの脆弱さを実証し,現在の生成画像モデルにおける系統的安全性問題に関するさらなる知見を提供する。
論文参考訳（メタデータ） (2023-09-20T18:25:44Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。