論文の概要: Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling
- arxiv url: http://arxiv.org/abs/2505.21074v1
- Date: Tue, 27 May 2025 12:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.624974
- Title: Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling
- Title(参考訳): ルールベース推論モデリングによるテキスト・ツー・イメージ・システムの構築
- Authors: Yichuan Cao, Yibo Miao, Xiao-Shan Gao, Yinpeng Dong,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、不適切または有害な画像を生成する可能性があるため、倫理的および安全上の懸念を提起する。
ルールベースの参照モデリングガイド付きレッドチーム(RPG-RT)を提案する。
RPG-RTは各イテレーションからのフィードバックを前もって扱い、LLMが未知の防御機構に動的に適応できるようにする。
- 参考スコア(独自算出の注目度): 19.785136885667026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models raise ethical and safety concerns due to their potential to generate inappropriate or harmful images. Evaluating these models' security through red-teaming is vital, yet white-box approaches are limited by their need for internal access, complicating their use with closed-source models. Moreover, existing black-box methods often assume knowledge about the model's specific defense mechanisms, limiting their utility in real-world commercial API scenarios. A significant challenge is how to evade unknown and diverse defense mechanisms. To overcome this difficulty, we propose a novel Rule-based Preference modeling Guided Red-Teaming (RPG-RT), which iteratively employs LLM to modify prompts to query and leverages feedback from T2I systems for fine-tuning the LLM. RPG-RT treats the feedback from each iteration as a prior, enabling the LLM to dynamically adapt to unknown defense mechanisms. Given that the feedback is often labeled and coarse-grained, making it difficult to utilize directly, we further propose rule-based preference modeling, which employs a set of rules to evaluate desired or undesired feedback, facilitating finer-grained control over the LLM's dynamic adaptation process. Extensive experiments on nineteen T2I systems with varied safety mechanisms, three online commercial API services, and T2V models verify the superiority and practicality of our approach.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、不適切または有害な画像を生成する可能性があるため、倫理的および安全上の懸念を提起する。
レッドチームによるこれらのモデルのセキュリティ評価は不可欠だが、ホワイトボックスアプローチは内部アクセスの必要性によって制限され、クローズドソースモデルでの使用が複雑になる。
さらに、既存のブラックボックスメソッドは、しばしばモデルの特定の防御メカニズムに関する知識を前提としており、実世界の商用APIシナリオにおいてその実用性を制限している。
重要な課題は、未知の多様な防御機構を避ける方法である。
この難しさを克服するために,LLMを反復的に使用してクエリのプロンプトを修正し,T2Iシステムからのフィードバックを利用してLLMを微調整する,ルールベースのPreference Modeling Guided Red-Teaming (RPG-RT)を提案する。
RPG-RTは各イテレーションからのフィードバックを前もって扱い、LLMが未知の防御機構に動的に適応できるようにする。
フィードバックのラベル付けや粗粒化が頻繁に行われ,直接利用が困難であることを踏まえ,所望のフィードバックや望ましくないフィードバックを評価するためのルールセットを用いたルールベースの嗜好モデリングを提案し,LLMの動的適応プロセスのよりきめ細かい制御を容易にする。
安全性の異なる19のT2Iシステム,3つのオンライン商用APIサービス,そしてT2Vモデルによる大規模な実験により,我々のアプローチの優位性と実用性が確認された。
関連論文リスト
- T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
テキスト・ツー・イメージ(T2I)モデルは広く普及しているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
現在の安全対策はテキストベースのフィルタリングや概念除去戦略に限られており、モデルの生成能力からわずかに概念を除去することができる。
直接選好最適化(DPO)によるT2Iモデルの安全アライメント手法であるSafetyDPOを導入する。
我々は、ローランク適応(LoRA)行列の形で、特定の安全関連から生成プロセスを導くことができる安全専門家を訓練する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion [22.666853714543993]
テキスト・トゥ・モーション(T2M)モデルはテキスト・プロンプトからリアルな動きを生成する。
T2Mへの関心が高まったが、敵の攻撃からこれらのモデルを保護することに焦点を当てる手法はほとんどなかった。
ALERT-Motionは,ブラックボックスT2Mモデルに対する敵攻撃を標的とする自律的フレームワークである。
論文 参考訳(メタデータ) (2024-08-01T07:44:11Z) - Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming [37.32997502058661]
本稿では,数個のトークンで入力プロンプトを再構築するプラグイン・アンド・プレイプレフィックスモジュールとしてtextbfsentinel モデルを提案する。
センチネルモデルは、微調整された大きなターゲットモデルに対するテキストパラメータ非効率性とテキスト制限モデルアクセシビリティを自然に克服する。
テキスト・ツー・テキスト・ツー・イメージを用いた実験により,有害な出力を緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-05-21T08:57:44Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。