論文の概要: Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization
- arxiv url: http://arxiv.org/abs/2505.04578v1
- Date: Wed, 07 May 2025 17:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.162096
- Title: Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization
- Title(参考訳): 火で戦う: 逆中性化による悪質なRLファインチューニングに対する防御
- Authors: Wenjun Cao,
- Abstract要約: 悪意のあるRL微調整は、優れた効率で安全ガードレールを解体する。
監督された微調整を狙った既存の防御は効果がない。
我々は、RL微調整攻撃に対して特別に設計された最初の防御フレームワークであるReward Neutralizationを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) fine-tuning transforms large language models while creating a vulnerability we experimentally verify: Our experiment shows that malicious RL fine-tuning dismantles safety guardrails with remarkable efficiency, requiring only 50 steps and minimal adversarial prompts, with harmful escalating from 0-2 to 7-9. This attack vector particularly threatens open-source models with parameter-level access. Existing defenses targeting supervised fine-tuning prove ineffective against RL's dynamic feedback mechanisms. We introduce Reward Neutralization, the first defense framework specifically designed against RL fine-tuning attacks, establishing concise rejection patterns that render malicious reward signals ineffective. Our approach trains models to produce minimal-information rejections that attackers cannot exploit, systematically neutralizing attempts to optimize toward harmful outputs. Experiments validate that our approach maintains low harmful scores (no greater than 2) after 200 attack steps, while standard models rapidly deteriorate. This work provides the first constructive proof that robust defense against increasingly accessible RL attacks is achievable, addressing a critical security gap for open-weight models.
- Abstract(参考訳): 我々の実験は、悪意のあるRL微調整は、50ステップと最小の敵のプロンプトを必要とせず、有害なエスカレートを0-2から7-9に抑えながら、極めて効率的な安全ガードレールを分解することを示している。
この攻撃ベクトルは特にパラメータレベルアクセスを持つオープンソースモデルを脅かす。
教師付き微調整を目標とする既存の防御は、RLの動的フィードバックメカニズムに対して効果がないことを証明している。
我々は、RLの微調整攻撃に対して特別に設計された最初の防御フレームワークであるReward Neutralizationを導入し、悪意ある報酬信号を非効率にレンダリングする簡潔な拒絶パターンを確立した。
我々のアプローチは、攻撃者が悪質なアウトプットに向けて最適化する試みを体系的に中和し、利用できない最小限の情報拒絶を生成するためにモデルを訓練する。
実験により,200段階の攻撃後に有害なスコアが低く,標準モデルが急速に低下していることが確認された。
この研究は、ますますアクセスしやすくなっているRL攻撃に対する堅牢な防御が達成可能であるという最初の建設的な証明を提供し、オープンウェイトモデルにとって重要なセキュリティギャップに対処する。
関連論文リスト
- Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [22.078088272837068]
フェデレーテッド・ラーニング(FL)システムは敵の攻撃を受けやすい。
現在の防衛方式は現実世界のFLシステムでは実用的ではないことが多い。
本稿では,現実のFLシステムを対象とした新しい異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T07:09:05Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Stealthy and Efficient Adversarial Attacks against Deep Reinforcement
Learning [30.46580767540506]
本稿では,Deep Reinforcement Learning Agentを効果的かつ効果的に攻撃するための2つの新しい敵攻撃手法を紹介する。
敵は将来の環境状態とエージェントの行動を予測するモデルを構築し、それぞれの攻撃戦略の損傷を評価し、最適な攻撃方法を選択する。
敵は自動的にドメインに依存しないモデルを学び、エピソード中のエージェントを攻撃する重要な瞬間を発見する。
論文 参考訳(メタデータ) (2020-05-14T16:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。