論文の概要: SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models
- arxiv url: http://arxiv.org/abs/2511.08379v1
- Date: Wed, 12 Nov 2025 01:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.789445
- Title: SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models
- Title(参考訳): SOM指示は1より優れている:言語モデルにおける多方向拒絶抑圧
- Authors: Giorgio Piras, Raffaele Mura, Fabio Brau, Luca Oneto, Fabio Roli, Battista Biggio,
- Abstract要約: 拒絶(Refusal)とは、安全に整合した言語モデルが有害または非倫理的なプロンプトを拒否できる機能的行動を指す。
最近の研究は、モデルの潜在空間における単一方向としての拒絶動作を符号化した。
本稿では,自己組織マップを利用して複数の拒絶方向を抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 11.37938988675986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Refusal refers to the functional behavior enabling safety-aligned language models to reject harmful or unethical prompts. Following the growing scientific interest in mechanistic interpretability, recent work encoded refusal behavior as a single direction in the model's latent space; e.g., computed as the difference between the centroids of harmful and harmless prompt representations. However, emerging evidence suggests that concepts in LLMs often appear to be encoded as a low-dimensional manifold embedded in the high-dimensional latent space. Motivated by these findings, we propose a novel method leveraging Self-Organizing Maps (SOMs) to extract multiple refusal directions. To this end, we first prove that SOMs generalize the prior work's difference-in-means technique. We then train SOMs on harmful prompt representations to identify multiple neurons. By subtracting the centroid of harmless representations from each neuron, we derive a set of multiple directions expressing the refusal concept. We validate our method on an extensive experimental setup, demonstrating that ablating multiple directions from models' internals outperforms not only the single-direction baseline but also specialized jailbreak algorithms, leading to an effective suppression of refusal. Finally, we conclude by analyzing the mechanistic implications of our approach.
- Abstract(参考訳): 拒絶(Refusal)とは、安全に整合した言語モデルが有害または非倫理的なプロンプトを拒否できる機能的行動を指す。
機械的解釈可能性への科学的関心が高まると、最近の研究はモデル潜在空間における単一の方向として拒絶行動を符号化し、例えば、有害かつ無害なプロンプト表現のセントロイドの違いとして計算した。
しかし、新たな証拠は LLM の概念が高次元ラテント空間に埋め込まれた低次元多様体として符号化されることをしばしば示唆している。
そこで本研究では, 自己組織マップ(SOM)を用いて複数の拒絶方向を抽出する手法を提案する。
この目的のために、まずSOMが先行研究の差分法を一般化することを証明した。
次に、有害なプロンプト表現に基づいてSOMを訓練し、複数のニューロンを同定する。
各ニューロンから無害表現のセントロイドを減じることで、拒絶概念を表す複数の方向の集合を導出する。
提案手法を実験的に検証し,モデル内部からの複数方向のアブラッシングが単一方向ベースラインだけでなく,特殊なジェイルブレイクアルゴリズムよりも優れており,拒絶を効果的に抑制できることを示す。
最後に、我々のアプローチの機械的意味を分析することで結論付ける。
関連論文リスト
- Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence [57.57786477441956]
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:52:59Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - State Machine of Thoughts: Leveraging Past Reasoning Trajectories for
Enhancing Problem Solving [6.198707341858042]
我々は、状態マシンを使用して、以前の推論軌道から得られた経験を記録する。
状態マシン内では、状態は分解されたサブプロブレムを表し、状態遷移はサブプロブレム間の依存関係を反映する。
提案するState Machine of Thoughts (SMoT)は,最も最適なサブソリューションを選択し,誤ったサブソリューションを避ける。
論文 参考訳(メタデータ) (2023-12-29T03:00:04Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。