論文の概要: Refusal in Language Models Is Mediated by a Single Direction
- arxiv url: http://arxiv.org/abs/2406.11717v3
- Date: Wed, 30 Oct 2024 18:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:18.723747
- Title: Refusal in Language Models Is Mediated by a Single Direction
- Title(参考訳): 言語モデルの拒絶は1つの方向によって媒介される
- Authors: Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Panickssery, Wes Gurnee, Neel Nanda,
- Abstract要約: リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
- 参考スコア(独自算出の注目度): 4.532520427311685
- License:
- Abstract: Conversational large language models are fine-tuned for both instruction-following and safety, resulting in models that obey benign requests but refuse harmful ones. While this refusal behavior is widespread across chat models, its underlying mechanisms remain poorly understood. In this work, we show that refusal is mediated by a one-dimensional subspace, across 13 popular open-source chat models up to 72B parameters in size. Specifically, for each model, we find a single direction such that erasing this direction from the model's residual stream activations prevents it from refusing harmful instructions, while adding this direction elicits refusal on even harmless instructions. Leveraging this insight, we propose a novel white-box jailbreak method that surgically disables refusal with minimal effect on other capabilities. Finally, we mechanistically analyze how adversarial suffixes suppress propagation of the refusal-mediating direction. Our findings underscore the brittleness of current safety fine-tuning methods. More broadly, our work showcases how an understanding of model internals can be leveraged to develop practical methods for controlling model behavior.
- Abstract(参考訳): 対話型大規模言語モデルは、命令追従と安全性の両方のために微調整され、良心的な要求に従うが有害な言語を拒否するモデルとなる。
この拒絶行動はチャットモデル全体に広がっているが、その基盤となるメカニズムはいまだに理解されていない。
本研究では,1次元のサブスペースを介し,最大72Bのパラメータを持つ13のオープンソースチャットモデルを対象とした。
具体的には、各モデルに対して、モデルが残したストリームアクティベートからこの方向を消去することで、有害な命令を拒否するのを防ぐ一方、この方向を追加することで、有害な命令さえも拒否する1つの方向を見つける。
この知見を生かして,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
最後に, 逆行性接尾辞が拒絶媒介方向の伝播を抑制するかを機械的に解析する。
本研究は, 現行の安全微調整法の脆さを浮き彫りにした。
より広範に、我々の研究はモデル内部の理解をどのように活用してモデル行動を制御する実践的な方法を開発するかを示した。
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation [29.605302471407537]
言語モデルを有用かつ無害にトレーニングするには、拒否行動の慎重な校正が必要である。
本稿では,単一ベクトルアブレーションによる言語モデルにおける偽の拒絶を緩和するための簡易かつ外科的手法を提案する。
提案手法はトレーニング不要で,モデルに依存しないため,現在および将来の言語モデルにおける誤認の軽減に有効である。
論文 参考訳(メタデータ) (2024-10-04T13:25:32Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Who's asking? User personas and the mechanics of latent misalignment [12.92431783194089]
安全に配慮したモデルでは、不整合能力は依然として潜伏している。
モデル世代が安全である場合でも、有害なコンテンツは隠された表現で持続可能であることを示す。
特定のペルソナがモデルセーフガードを破る理由を調査し、モデルがより慈善的な解釈を形成することができることを確かめる。
論文 参考訳(メタデータ) (2024-06-17T21:15:12Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。