論文の概要: There Is More to Refusal in Large Language Models than a Single Direction
- arxiv url: http://arxiv.org/abs/2602.02132v1
- Date: Mon, 02 Feb 2026 14:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.19442
- Title: There Is More to Refusal in Large Language Models than a Single Direction
- Title(参考訳): 単一方向よりも大きな言語モデルでの拒絶の方が多い
- Authors: Faaiz Joad, Majd Hawasly, Sabri Boughorbel, Nadir Durrani, Husrev Taha Sencar,
- Abstract要約: 大規模言語モデルの拒絶は,単一のアクティベーション空間方向によって媒介されることを示す。
拒絶行動と非コンプライアンスの11のカテゴリにおいて、これらの拒絶行動は活性化空間における幾何学的に異なる方向に対応することが分かる。
- 参考スコア(独自算出の注目度): 10.766705737230781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work argues that refusal in large language models is mediated by a single activation-space direction, enabling effective steering and ablation. We show that this account is incomplete. Across eleven categories of refusal and non-compliance, including safety, incomplete or unsupported requests, anthropomorphization, and over-refusal, we find that these refusal behaviors correspond to geometrically distinct directions in activation space. Yet despite this diversity, linear steering along any refusal-related direction produces nearly identical refusal to over-refusal trade-offs, acting as a shared one-dimensional control knob. The primary effect of different directions is not whether the model refuses, but how it refuses.
- Abstract(参考訳): 以前の研究は、大きな言語モデルの拒絶は単一のアクティベーション空間方向によって媒介され、効果的なステアリングとアブレーションを可能にすると主張している。
この説明が不完全であることを示す。
安全・不完全・不完全・不完全な要求・人為的形態化・過度の拒絶を含む11の拒絶・非コンプライアンスのカテゴリにおいて,これらの拒絶行動は,アクティベーション空間における幾何学的に異なる方向に対応することが判明した。
しかし、この多様性にもかかわらず、リフレクション関連の方向に沿ったリニアステアリングは、オーバーリフレクションのトレードオフに対してほぼ同じ拒絶を生じさせ、共有一次元制御ノブとして機能する。
異なる方向の主な効果は、モデルが拒否するかどうかではなく、どのように拒否するかである。
関連論文リスト
- COSMIC: Generalized Refusal Direction Identification in LLM Activations [43.30637889861949]
本稿では,方向選択のための自動フレームワークであるbfCOSMIC(Cosine similarity Metrics for Inversion of Concepts)を紹介する。
モデル出力から完全に独立しているコサイン類似性を使用して、実行可能なステアリング方向とターゲット層を特定する。
敵対的な設定や弱い整列モデルにおける拒絶方向を確実に識別し、偽の拒絶を最小限に抑えつつ、より安全な行動に向けてそのようなモデルを操ることが可能である。
論文 参考訳(メタデータ) (2025-05-30T04:54:18Z) - Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。
英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。
この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文 参考訳(メタデータ) (2025-05-22T21:54:46Z) - The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence [57.57786477441956]
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:52:59Z) - Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models [68.15108215197279]
安全で信頼性の高い言語モデルを構築する上で重要な要素は、モデルが特定の質問に答えることを適切に拒否することである。
本稿では,学習中のモデルの応答に先立って,各拒絶カテゴリに対する1つのそのようなトークン,あるいは1つの拒絶トークンを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:40:44Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z) - Invariance Principle Meets Information Bottleneck for
Out-of-Distribution Generalization [77.24152933825238]
線形分類タスクには分布シフトの強い制限が必要であり、そうでなければ OOD の一般化は不可能であることを示す。
不変な特徴がラベルに関するすべての情報をキャプチャし、そうでなければ既存の成功を保っている場合、情報ボトルネックの形式が重要な障害に対処するのに役立つことを証明します。
論文 参考訳(メタデータ) (2021-06-11T20:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。