論文の概要: BadReward: Clean-Label Poisoning of Reward Models in Text-to-Image RLHF
- arxiv url: http://arxiv.org/abs/2506.03234v1
- Date: Tue, 03 Jun 2025 16:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.973939
- Title: BadReward: Clean-Label Poisoning of Reward Models in Text-to-Image RLHF
- Title(参考訳): BadReward:テキスト・トゥ・イメージRLHFにおけるリワードモデルのクリーン・ラベル・ポゾンティング
- Authors: Kaiwen Duan, Hongwei Yao, Yufei Chen, Ziyun Li, Tong Qiao, Zhan Qin, Cong Wang,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、テキスト・ツー・イメージ(T2I)モデルを人間の好みに合わせるために重要である。
本稿では,少数の嗜好データを自然出現例で有毒化することにより,Hyjacking T2Iモデルの実現可能性を示す。
我々は,マルチモーダルRLHFにおける報酬モデルをターゲットにした,ステルスなクリーンラベル中毒攻撃であるBadRewardを提案する。
- 参考スコア(独自算出の注目度): 15.654937341468239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning text-to-image (T2I) models with human preferences. However, RLHF's feedback mechanism also opens new pathways for adversaries. This paper demonstrates the feasibility of hijacking T2I models by poisoning a small fraction of preference data with natural-appearing examples. Specifically, we propose BadReward, a stealthy clean-label poisoning attack targeting the reward model in multi-modal RLHF. BadReward operates by inducing feature collisions between visually contradicted preference data instances, thereby corrupting the reward model and indirectly compromising the T2I model's integrity. Unlike existing alignment poisoning techniques focused on single (text) modality, BadReward is independent of the preference annotation process, enhancing its stealth and practical threat. Extensive experiments on popular T2I models show that BadReward can consistently guide the generation towards improper outputs, such as biased or violent imagery, for targeted concepts. Our findings underscore the amplified threat landscape for RLHF in multi-modal systems, highlighting the urgent need for robust defenses. Disclaimer. This paper contains uncensored toxic content that might be offensive or disturbing to the readers.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、テキスト・ツー・イメージ(T2I)モデルを人間の好みに合わせるために重要である。
しかし、RLHFのフィードバック機構は敵に対する新たな経路を開く。
本稿では,少数の嗜好データを自然出現例で有毒化することにより,Hyjacking T2Iモデルの実現可能性を示す。
具体的には、マルチモーダルRLHFにおける報酬モデルをターゲットにした、ステルスなクリーンラベル中毒攻撃であるBadRewardを提案する。
BadRewardは、視覚的に矛盾した嗜好データインスタンス間の機能衝突を誘発することにより、報酬モデルを破壊し、T2Iモデルの整合性を間接的に妥協する。
単一(テキスト)のモダリティに焦点を当てた既存のアライメント中毒技術とは異なり、BadRewardは好みのアノテーションプロセスとは独立しており、そのステルス性と実用的な脅威を高めている。
人気のT2Iモデルに対する大規模な実験は、BadRewardが常にターゲットのコンセプトに対してバイアスや暴力的なイメージなどの不適切な出力に向けて生成を導くことができることを示している。
マルチモーダルシステムにおけるRLHFの脅威環境を増幅し,堅牢な防御の必要性を浮き彫りにした。
破壊者。
本論文は, 読者を攻撃的あるいは邪魔する可能性のある無検閲の有毒な内容を含む。
関連論文リスト
- AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection [26.066755429896926]
バックドアの透かしとしてOoD(Out-of-Distribution)データを選択し、著作権保護のためにオリジナルのモデルを再訓練する。
既存の方法は、敵による悪意のある検出と偽造を受けやすいため、透かしの回避につながる。
マルチモーダルモデル著作権保護におけるステルスネスとロバストネスの課題に対処するために,モデル-アンダーラインに依存しないブラックボックスのバックドアWunderlineatermarking Framework (AGATE)を提案する。
論文 参考訳(メタデータ) (2025-04-28T14:52:01Z) - IPR-NeRF: Ownership Verification meets Neural Radiance Field [100.76162575686368]
本稿では,ブラックボックスとホワイトボックスの両方の設定において,NeRFモデルに対する包括的知的財産権(IP)保護フレームワークを提案する。
ブラックボックス設定では、拡散ベースの溶液を導入して、透かしを埋め込んで抽出する。
ホワイトボックス設定では、符号損失目標を適用して、指定されたデジタル署名をNeRFモデルの重みに埋め込む。
論文 参考訳(メタデータ) (2024-01-17T01:33:40Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。