論文の概要: Defending against Reverse Preference Attacks is Difficult
- arxiv url: http://arxiv.org/abs/2409.12914v1
- Date: Thu, 19 Sep 2024 17:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:59:09.653758
- Title: Defending against Reverse Preference Attacks is Difficult
- Title(参考訳): 逆推論攻撃に対する防御は難しい
- Authors: Domenic Rosati, Giles Edkins, Harsh Raj, David Atanasov, Subhabrata Majumdar, Janarthanan Rajendran, Frank Rudzicz, Hassan Sajjad,
- Abstract要約: 大きな言語モデル(LLM)は、有害なデータセットに対する教師付き微調整(SFT)のようなトレーニング時の攻撃に対して脆弱である。
本研究では,LLMが人間からのフィードバックから強化学習を行う際に,相手の報酬を用いて有害な行動を学習できるようにするために,Reverse Preference Attacks (RPA)を提案する。
- 参考スコア(独自算出の注目度): 26.872318173182414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there has been progress towards aligning Large Language Models (LLMs) with human values and ensuring safe behaviour at inference time, safety-aligned LLMs are known to be vulnerable to training-time attacks such as supervised fine-tuning (SFT) on harmful datasets. In this paper, we ask if LLMs are vulnerable to adversarial reinforcement learning. Motivated by this goal, we propose Reverse Preference Attacks (RPA), a class of attacks to make LLMs learn harmful behavior using adversarial reward during reinforcement learning from human feedback (RLHF). RPAs expose a critical safety gap of safety-aligned LLMs in RL settings: they easily explore the harmful text generation policies to optimize adversarial reward. To protect against RPAs, we explore a host of mitigation strategies. Leveraging Constrained Markov-Decision Processes, we adapt a number of mechanisms to defend against harmful fine-tuning attacks into the RL setting. Our experiments show that ``online" defenses that are based on the idea of minimizing the negative log likelihood of refusals -- with the defender having control of the loss function -- can effectively protect LLMs against RPAs. However, trying to defend model weights using ``offline" defenses that operate under the assumption that the defender has no control over the loss function are less effective in the face of RPAs. These findings show that attacks done using RL can be used to successfully undo safety alignment in open-weight LLMs and use them for malicious purposes.
- Abstract(参考訳): 大規模言語モデル(LLM)を人的価値と整合させ、推論時に安全な振る舞いを確保するための進歩があるが、安全に整合したLSMは有害なデータセットに対する教師付き微調整(SFT)のような訓練時間攻撃に対して脆弱であることが知られている。
本稿では,LLMが敵の強化学習に弱いかどうかを問う。
この目標を掲げ,人間からのフィードバック(RLHF)からの強化学習において,LLMが敵の報酬を用いて有害な行動を学ぶためのクラスであるReverse Preference Attacks (RPA)を提案する。
RPAは安全に配慮したLLMの重大な安全性のギャップをRL設定で露呈し、有害なテキスト生成ポリシーを探索して敵の報酬を最適化する。
RPAから保護するために、私たちは一連の緩和戦略を探求する。
制約付きマルコフ決定プロセスを活用することで、RL設定に対する有害な微調整攻撃を防御する多くのメカニズムを適応する。
本実験は, 損失関数を制御したディフェンダーが, 損失関数の負のログ可能性を最小限に抑えるという考え方に基づく「オフライン」ディフェンスは, 損失関数を制御できないと仮定した「オフライン」ディフェンスを用いて, モデルウェイトを効果的に保護できることを示した。
これらの結果から, RL を用いた攻撃は, オープンウェイト LLM の安全アライメントを解除し, 悪質な目的に使用するために有効であることが示唆された。
関連論文リスト
- Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z) - From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards [4.0645651835677565]
我々は、既に緩和されたバイアスのモデルを評価することにより、安全対策の有効性を検討する。
非有毒なプロンプトのセットを作成し、それをLlamaモデルの評価に用いる。
安全と健康のトレードオフは、サービス品質の害につながる可能性のある特定の人口集団にとってより顕著である。
論文 参考訳(メタデータ) (2024-03-20T00:22:38Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。