論文の概要: From Seed to Harvest: Augmenting Human Creativity with AI for Red-teaming Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2507.17922v1
- Date: Wed, 23 Jul 2025 20:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.535358
- Title: From Seed to Harvest: Augmenting Human Creativity with AI for Red-teaming Text-to-Image Models
- Title(参考訳): シードからハーベストへ - テキスト-画像モデルのリピートのためのAIによる人間の創造性向上
- Authors: Jessica Quaye, Charvi Rastogi, Alicia Parrish, Oana Inel, Minsuk Kahng, Lora Aroyo, Vijay Janapa Reddi,
- Abstract要約: 敵のプロンプトを生成する現在の技術は、人間によって完全に認可されるか、合成的に生成される。
文化的に多種多様で人為的な対人プロンプト種子を誘導するハイブリッドレッドチーム法であるSeed2Harvestを提案する。
我々のデータセットは、535のユニークな地理的位置と7.48のシャノンエントロピーで、58のロケーションと5.28のエントロピーでかなり高い多様性を達成している。
- 参考スコア(独自算出の注目度): 18.279098052759355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models have become prevalent across numerous applications, making their robust evaluation against adversarial attacks a critical priority. Continuous access to new and challenging adversarial prompts across diverse domains is essential for stress-testing these models for resilience against novel attacks from multiple vectors. Current techniques for generating such prompts are either entirely authored by humans or synthetically generated. On the one hand, datasets of human-crafted adversarial prompts are often too small in size and imbalanced in their cultural and contextual representation. On the other hand, datasets of synthetically-generated prompts achieve scale, but typically lack the realistic nuances and creative adversarial strategies found in human-crafted prompts. To combine the strengths of both human and machine approaches, we propose Seed2Harvest, a hybrid red-teaming method for guided expansion of culturally diverse, human-crafted adversarial prompt seeds. The resulting prompts preserve the characteristics and attack patterns of human prompts while maintaining comparable average attack success rates (0.31 NudeNet, 0.36 SD NSFW, 0.12 Q16). Our expanded dataset achieves substantially higher diversity with 535 unique geographic locations and a Shannon entropy of 7.48, compared to 58 locations and 5.28 entropy in the original dataset. Our work demonstrates the importance of human-machine collaboration in leveraging human creativity and machine computational capacity to achieve comprehensive, scalable red-teaming for continuous T2I model safety evaluation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは多くのアプリケーションで普及しており、敵攻撃に対する堅牢な評価が最優先事項となっている。
多様なドメインにまたがる新規で挑戦的な敵のプロンプトへの継続的なアクセスは、これらのモデルが複数のベクトルからの新規攻撃に対するレジリエンスをテストするために不可欠である。
このようなプロンプトを生成するための現在の技術は、人間によって完全に認可されるか、あるいは合成的に生成される。
一方、人造敵プロンプトのデータセットはサイズが小さすぎることが多く、その文化的・文脈的表現には不均衡が伴うことが多い。
一方、人工的に生成されたプロンプトのデータセットはスケールを達成できるが、典型的には人造プロンプトに見られる現実的なニュアンスや創造的な敵意の戦略を欠いている。
人類と機械の双方のアプローチの強みを組み合わせるために,文化的に多種多様で人為的な対向的な種子を誘導するハイブリッドレッドピーキング法であるSeed2Harvestを提案する。
その結果、人間のプロンプトの特徴と攻撃パターンは、同等の平均攻撃成功率(0.31 NudeNet, 0.36 SD NSFW, 0.12 Q16)を維持しながら維持される。
我々の拡張されたデータセットは、535のユニークな地理的位置と7.48のシャノンエントロピーで、元のデータセットの58のロケーションと5.28のエントロピーに比べて、かなり高い多様性を実現している。
我々の研究は、人間の創造性と機械計算能力を活用して、連続的なT2Iモデル安全性評価のための包括的でスケーラブルなレッドチームを実現する上で、人間と機械の協調が重要であることを示す。
関連論文リスト
- HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly [15.347208661111198]
HumanSAMは、人間中心のフォージェリーを、生成されたコンテンツでよく見られる3つの異なる種類のアーティファクトに分類することを目的としている。
HumanSAMは、バイナリとマルチクラスの偽造分類の両方において、最先端の手法と比較して有望な結果をもたらす。
論文 参考訳(メタデータ) (2025-07-26T12:03:47Z) - DUMB and DUMBer: Is Adversarial Training Worth It in the Real World? [15.469010487781931]
敵の例は小さく、しばしば、愚かな機械学習モデルのために作られた、知覚不能な摂動である。
侵入攻撃(英語: Evasion attack)とは、入力がテスト時に誤分類を引き起こすように修正される敵攻撃の一種であり、その伝達性のために特に不快である。
本稿では,DUMB法の基礎の上に構築された攻撃フレームワークであるDUMBerを紹介し,敵の訓練したモデルの弾力性を評価する。
論文 参考訳(メタデータ) (2025-06-23T11:16:21Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [51.86515213749527]
本稿では,多様な実データの自動生成を可能にするスケーラブルなシミュレーションフレームワークであるRoboTwin 2.0を紹介する。
sim-to-real転送を改善するため、RoboTwin 2.0は5つの軸に沿って構造化されたドメインランダム化を組み込んでいる。
このフレームワークは、5つのロボットエボディメントにまたがる50のデュアルアームタスクにまたがってインスタンス化されます。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - Concealed Adversarial attacks on neural networks for sequential data [2.1879059908547482]
我々は、異なる時系列モデルに対する隠れた敵攻撃を開発する。
より現実的な摂動を提供し、人間またはモデル判別器によって検出するのが困難である。
この結果から,堅牢な時系列モデルを設計する上での課題が浮き彫りになった。
論文 参考訳(メタデータ) (2025-02-28T11:03:32Z) - Testing Human-Hand Segmentation on In-Distribution and Out-of-Distribution Data in Human-Robot Interactions Using a Deep Ensemble Model [40.815678328617686]
我々は、IDデータとより挑戦的なOODシナリオの両方の下で、事前学習されたディープラーニングモデルの性能を評価することによって、新しいアプローチを提案する。
動作の速い手から指を横切る動作や動きのぼやけなど,特異かつ稀な条件を取り入れた。
その結果、産業用データセットでトレーニングされたモデルは、非工業用データセットでトレーニングされたモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-01-13T21:52:46Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。