論文の概要: The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence
- arxiv url: http://arxiv.org/abs/2502.17420v1
- Date: Mon, 24 Feb 2025 18:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:24.640730
- Title: The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence
- Title(参考訳): 大規模言語モデルにおける拒絶の幾何学:概念円錐と表現独立
- Authors: Tom Wollschläger, Jannes Elstner, Simon Geisler, Vincent Cohen-Addad, Stephan Günnemann, Johannes Gasteiger,
- Abstract要約: 以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
- 参考スコア(独自算出の注目度): 57.57786477441956
- License:
- Abstract: The safety alignment of large language models (LLMs) can be circumvented through adversarially crafted inputs, yet the mechanisms by which these attacks bypass safety barriers remain poorly understood. Prior work suggests that a single refusal direction in the model's activation space determines whether an LLM refuses a request. In this study, we propose a novel gradient-based approach to representation engineering and use it to identify refusal directions. Contrary to prior work, we uncover multiple independent directions and even multi-dimensional concept cones that mediate refusal. Moreover, we show that orthogonality alone does not imply independence under intervention, motivating the notion of representational independence that accounts for both linear and non-linear effects. Using this framework, we identify mechanistically independent refusal directions. We show that refusal mechanisms in LLMs are governed by complex spatial structures and identify functionally independent directions, confirming that multiple distinct mechanisms drive refusal behavior. Our gradient-based approach uncovers these mechanisms and can further serve as a foundation for future work on understanding LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性アライメントは、敵の入力によって回避できるが、これらの攻撃が安全障壁をバイパスするメカニズムはよく理解されていない。
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本研究では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
先行研究とは対照的に、複数の独立方向や、拒絶を媒介する多次元概念コーンも発見する。
さらに、直交性だけでは介入下での独立を含まないことを示し、線形効果と非線形効果の両方を考慮に入れた表現的独立の概念を動機付けている。
この枠組みを用いて機械的に独立な拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別し、複数の異なる機構が拒絶行動を引き起こすことを確認する。
我々の勾配に基づくアプローチはこれらのメカニズムを解明し、LLMを理解するための将来の研究の基盤として役立てることができる。
関連論文リスト
- Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts [11.81523319216474]
ステアリング法は、大きな言語モデル(LLM)の表現を操作して、望ましい特性を持つ応答を誘導する。
伝統的に、ステアリングは、単一のターゲット概念で異なる対照的なプロンプトのペアなど、監督に依存してきた。
Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。
論文 参考訳(メタデータ) (2025-02-14T08:49:41Z) - The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Safety Analysis [20.522881564776434]
安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
論文 参考訳(メタデータ) (2025-02-13T06:39:22Z) - Refusal Behavior in Large Language Models: A Nonlinear Perspective [2.979183050755201]
大きな言語モデル(LLM)における拒絶行動は、有害、非倫理的、不適切なプロンプトに対する反応を減少させる。
本稿では,3つの建築家族の6つのLLMにおける拒絶行動について検討する。
論文 参考訳(メタデータ) (2025-01-14T14:23:18Z) - Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Independent mechanism analysis, a new concept? [3.2548794659022393]
Identifiabilityは、通常観察される変数が生成プロセスに含まれる設定で回復することができる。
我々は,非線形ブラインド音源分離における非識別性問題の多くを回避できるという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2021-06-09T16:45:00Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。