論文の概要: The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Safety Analysis
- arxiv url: http://arxiv.org/abs/2502.09674v2
- Date: Tue, 18 Feb 2025 03:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 13:32:01.308392
- Title: The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Safety Analysis
- Title(参考訳): LLMアライメントの隠れ次元:多次元安全解析
- Authors: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia,
- Abstract要約: 安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
- 参考スコア(独自算出の注目度): 20.522881564776434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models' safety-aligned behaviors, such as refusing harmful queries, can be represented by linear directions in activation space. Previous research modeled safety behavior with a single direction, limiting mechanistic understanding to an isolated safety feature. In this work, we discover that safety-aligned behavior is jointly controlled by multi-dimensional directions. Namely, we study the vector space of representation shifts during safety fine-tuning on Llama 3 8B for refusing jailbreaks. By studying orthogonal directions in the space, we first find that a dominant direction governs the model's refusal behavior, while multiple smaller directions represent distinct and interpretable features like hypothetical narrative and role-playing. We then measure how different directions promote or suppress the dominant direction, showing the important role of secondary directions in shaping the model's refusal representation. Finally, we demonstrate that removing certain trigger tokens in harmful queries can mitigate these directions to bypass the learned safety capability, providing new insights on understanding safety alignment vulnerability from a multi-dimensional perspective. Code and artifacts are available at https://github.com/BMPixel/safety-residual-space.
- Abstract(参考訳): 大規模言語モデルでは、有害なクエリを拒否するなど、安全に整合した振る舞いを、アクティベーション空間における線形方向で表現することができる。
従来の研究では、単一の方向で安全行動をモデル化し、機械的理解を孤立した安全特徴に制限した。
本研究では, 安全に配慮した動作が多次元方向によって協調的に制御されていることを明らかにする。
すなわち,Llama 3 8B上での安全に微調整を行う際の表現シフトのベクトル空間について検討した。
空間の直交方向を研究することで、まず、支配的な方向がモデルの拒絶行動を支配するのに対し、複数の小さな方向は仮説的物語やロールプレイングのような異なる解釈可能な特徴を表すのである。
次に、各方向が支配方向をいかに促進または抑制するかを測定し、モデルの拒絶表現を形作る上での二次方向の重要な役割を示す。
最後に、有害なクエリで特定のトリガートークンを削除することで、学習された安全性能力を回避し、多次元的な視点から安全性アライメント脆弱性を理解するための新たな洞察を提供する。
コードとアーティファクトはhttps://github.com/BMPixel/safety-residual-spaceで入手できる。
関連論文リスト
- AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [73.09848497762667]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。
AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る
本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-04-13T07:39:17Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence [57.57786477441956]
以前の研究は、モデルのアクティベーション空間における1つの拒絶方向が、LCMが要求を拒否するかどうかを決定することを示唆している。
本稿では,表現工学における勾配に基づく新しい手法を提案し,それを用いて拒絶方向を同定する。
LLMの拒絶機構は複雑な空間構造によって制御され、機能的に独立な方向を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:52:59Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - LatentCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions [0.02294014185517203]
本稿では,事前学習したGANの潜在空間における意味的方向を検出するための,コントラッシブ・ラーニングに基づくアプローチを提案する。
私たちのアプローチは、最先端のメソッドと互換性のある意味のある寸法を見つけます。
論文 参考訳(メタデータ) (2021-04-02T00:11:22Z) - Unsupervised Discovery of Interpretable Directions in the GAN Latent
Space [39.54530450932134]
GANモデルの潜在空間は、しばしば意味的に意味のある方向を持つ。
本稿では,事前学習したGANモデルの潜在空間における解釈可能な方向を特定するための教師なし手法を提案する。
弱教師付きサリエンシ検出のための競合性能を達成するために,この発見をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-02-10T13:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。