論文の概要: Over-Refusal and Representation Subspaces: A Mechanistic Analysis of Task-Conditioned Refusal in Aligned LLMs
- arxiv url: http://arxiv.org/abs/2603.27518v1
- Date: Sun, 29 Mar 2026 04:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.997941
- Title: Over-Refusal and Representation Subspaces: A Mechanistic Analysis of Task-Conditioned Refusal in Aligned LLMs
- Title(参考訳): オーバーリファレンスとリ表現部分空間:アライメントLLMにおけるタスク内容のリファレンスに関する力学解析
- Authors: Utsav Maskey, Mark Dras, Usman Naseem,
- Abstract要約: 有害な要求を拒否するように訓練されたアライメント言語モデルもまた、過剰な拒絶を示す。
有害な拒絶方向はタスク非依存であり、一方、過剰な拒絶方向はタスク依存であるのに対し、単一のグローバルベクトルによって捕捉可能であることを示す。
- 参考スコア(独自算出の注目度): 16.594400974742523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligned language models that are trained to refuse harmful requests also exhibit over-refusal: they decline safe instructions that seemingly resemble harmful instructions. A natural approach is to ablate the global refusal direction, steering the hidden-state vectors away or towards the harmful-refusal examples, but this corrects over-refusal only incidentally while disrupting the broader refusal mechanism. In this work, we analyse the representational geometry of both refusal types to understand why this happens. We show that harmful-refusal directions are task-agnostic and can be captured by a single global vector, whereas over-refusal directions are task-dependent: they reside within the benign task-representation clusters, vary across tasks, and span a higher-dimensional subspace. Linear probing confirms that the two refusal types are representationally distinct from the early transformer layers. These findings provide a mechanistic explanation of why global direction ablation alone cannot address over-refusal, and establish that task-specific geometric interventions are necessary.
- Abstract(参考訳): 有害な要求を拒否するように訓練された言語モデルは、過剰な拒絶を示し、有害な指示に類似したように見える安全な指示を減少させる。
自然のアプローチは、グローバルな拒絶方向を緩和し、隠れ状態のベクトルを遠ざけ、有害な拒絶例に向けることである。
本研究は, 両方の拒絶型の表現幾何学を解析し, その原因を解明する。
有害な拒絶方向はタスク非依存であり, 1つの大域ベクトルで捉えることができるのに対し, 過剰な拒絶方向はタスク依存であり, それらは良質なタスク表現クラスタ内にあり, タスクによって異なり, より高次元のサブ空間にまたがっている。
線形探索は、2つの拒絶型が初期変圧器層と表現的に異なることを確認した。
これらの知見は,グローバルな方向補正だけで過度な拒絶に対処できない理由を機械論的に説明し,課題特異的な幾何学的介入が必要であることを証明している。
関連論文リスト
- Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - SafeConstellations: Steering LLM Safety to Reduce Over-Refusals Through Task-Specific Trajectory [5.962636335604981]
過剰な拒絶行動は、有害な内容に表面的に類似する良心的な指示をモデルが拒否する原因となる。
SafeConstellationsは、タスク固有の軌道パターンを追跡し、非拒否経路への表現を誘導する推論時軌道シフト手法である。
本手法は, 過断率を最大73%削減し, 過断率を緩和する基本手法であるユーティリティオフリングに最小限の影響を与える。
論文 参考訳(メタデータ) (2025-08-15T07:54:42Z) - The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence [57.57786477441956]
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:52:59Z) - The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions [20.522881564776434]
安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
論文 参考訳(メタデータ) (2025-02-13T06:39:22Z) - Disentangled Representation Learning with the Gromov-Monge Gap [65.73194652234848]
乱れのないデータから歪んだ表現を学習することは、機械学習における根本的な課題である。
本稿では,2次最適輸送に基づく非交叉表現学習手法を提案する。
提案手法の有効性を4つの標準ベンチマークで示す。
論文 参考訳(メタデータ) (2024-07-10T16:51:32Z) - Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake Detection [57.646582245834324]
LSDAと呼ばれる簡易で効果的なディープフェイク検出器を提案する。
より多様な偽の表現は、より一般化可能な決定境界を学べるべきである。
提案手法は驚くほど有効であり, 広く使用されている複数のベンチマークで最先端の検出器を超越することを示す。
論文 参考訳(メタデータ) (2023-11-19T09:41:10Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Unsupervised Discovery of Interpretable Directions in the GAN Latent
Space [39.54530450932134]
GANモデルの潜在空間は、しばしば意味的に意味のある方向を持つ。
本稿では,事前学習したGANモデルの潜在空間における解釈可能な方向を特定するための教師なし手法を提案する。
弱教師付きサリエンシ検出のための競合性能を達成するために,この発見をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-02-10T13:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。