Fugu-MT 論文翻訳(概要): Refusal in Language Models Is Mediated by a Single Direction

論文の概要: Refusal in Language Models Is Mediated by a Single Direction

arxiv url: http://arxiv.org/abs/2406.11717v3
Date: Wed, 30 Oct 2024 18:57:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.755222
Title: Refusal in Language Models Is Mediated by a Single Direction
Title（参考訳）: 言語モデルの拒絶は1つの方向によって媒介される
Authors: Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Panickssery, Wes Gurnee, Neel Nanda,
Abstract要約: リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
参考スコア（独自算出の注目度）: 4.532520427311685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conversational large language models are fine-tuned for both instruction-following and safety, resulting in models that obey benign requests but refuse harmful ones. While this refusal behavior is widespread across chat models, its underlying mechanisms remain poorly understood. In this work, we show that refusal is mediated by a one-dimensional subspace, across 13 popular open-source chat models up to 72B parameters in size. Specifically, for each model, we find a single direction such that erasing this direction from the model's residual stream activations prevents it from refusing harmful instructions, while adding this direction elicits refusal on even harmless instructions. Leveraging this insight, we propose a novel white-box jailbreak method that surgically disables refusal with minimal effect on other capabilities. Finally, we mechanistically analyze how adversarial suffixes suppress propagation of the refusal-mediating direction. Our findings underscore the brittleness of current safety fine-tuning methods. More broadly, our work showcases how an understanding of model internals can be leveraged to develop practical methods for controlling model behavior.
Abstract（参考訳）: 対話型大規模言語モデルは、命令追従と安全性の両方のために微調整され、良心的な要求に従うが有害な言語を拒否するモデルとなる。この拒絶行動はチャットモデル全体に広がっているが、その基盤となるメカニズムはいまだに理解されていない。本研究では,1次元のサブスペースを介し,最大72Bのパラメータを持つ13のオープンソースチャットモデルを対象とした。具体的には、各モデルに対して、モデルが残したストリームアクティベートからこの方向を消去することで、有害な命令を拒否するのを防ぐ一方、この方向を追加することで、有害な命令さえも拒否する1つの方向を見つける。この知見を生かして,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。最後に, 逆行性接尾辞が拒絶媒介方向の伝播を抑制するかを機械的に解析する。本研究は, 現行の安全微調整法の脆さを浮き彫りにした。より広範に、我々の研究はモデル内部の理解をどのように活用してモデル行動を制御する実践的な方法を開発するかを示した。

関連論文リスト

Adversarial Manipulation of Reasoning Models using Internal Representations [1.024113475677323]
モデルが拒否するか否かを予測するCoTトークン生成において,活性化空間における線形方向を同定する。我々は、CoTトークンのアクティベーションのみに介入することで最終的な出力を制御することができ、この方向をプロンプトベースの攻撃に組み込むことで、成功率を向上させることを示す。以上の結果から,このチェーン・オブ・シンドローム自体が,推論モデルにおける敵対的操作の新たなターゲットとなる可能性が示唆された。
論文参考訳（メタデータ） (2025-07-03T20:51:32Z)
Persona Features Control Emergent Misalignment [4.716981217776586]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文参考訳（メタデータ） (2025-06-24T17:38:21Z)
Understanding Refusal in Language Models with Sparse Autoencoders [27.212781538459588]
我々はスパースオートエンコーダを用いて、拒絶動作を因果的に仲介する潜伏特徴を特定する。我々は、世代への影響を評価するために、拒絶に関連する特徴に介入する。これにより、アクティベーションレベルでのリファインダーの表示方法のきめ細かい検査が可能になる。
論文参考訳（メタデータ） (2025-05-29T15:33:39Z)
An Embarrassingly Simple Defense Against LLM Abliteration Attacks [46.74826882670651]
大型言語モデル(LLM)は通常、有害な指示を拒絶することで安全ガイドラインに従うように整列されている。失語症と呼ばれる最近の攻撃は、拒絶行動に最も責任がある唯一の潜伏方向を隔離し、抑制する。本稿では,モデルがリフレクションを生成する方法を変更するディフェンスを提案する。
論文参考訳（メタデータ） (2025-05-25T09:18:24Z)
Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。 15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文参考訳（メタデータ） (2025-03-22T23:35:49Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
TraSCE: Trajectory Steering for Concept Erasure [16.752023123940674]
テキスト・ツー・イメージ拡散モデルでは,NSFW(No-safe-for-work)画像のような有害なコンテンツを生成することが示されている。本稿では, 拡散経路を有害な物質の発生から遠ざけるためのTraSCEを提案する。提案手法は,有害なコンテンツを除去するための様々なベンチマークにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2024-12-10T16:45:03Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation [29.605302471407537]
言語モデルを有用かつ無害にトレーニングするには、拒否行動の慎重な校正が必要である。本稿では,単一ベクトルアブレーションによる言語モデルにおける偽の拒絶を緩和するための簡易かつ外科的手法を提案する。提案手法はトレーニング不要で,モデルに依存しないため,現在および将来の言語モデルにおける誤認の軽減に有効である。
論文参考訳（メタデータ） (2024-10-04T13:25:32Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Who's asking? User personas and the mechanics of latent misalignment [12.92431783194089]
安全に配慮したモデルでは、不整合能力は依然として潜伏している。モデル世代が安全である場合でも、有害なコンテンツは隠された表現で持続可能であることを示す。特定のペルソナがモデルセーフガードを破る理由を調査し、モデルがより慈善的な解釈を形成することができることを確かめる。
論文参考訳（メタデータ） (2024-06-17T21:15:12Z)
Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文参考訳（メタデータ） (2024-02-03T01:40:11Z)
Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (2024-01-31T07:26:47Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文参考訳（メタデータ） (2023-04-19T17:50:09Z)
MOVE: Effective and Harmless Ownership Verification via Embedded External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文参考訳（メタデータ） (2022-08-04T02:22:29Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。