論文の概要: The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Safety Analysis
- arxiv url: http://arxiv.org/abs/2502.09674v2
- Date: Tue, 18 Feb 2025 03:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:55.758535
- Title: The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Safety Analysis
- Title(参考訳): LLMアライメントの隠れ次元:多次元安全解析
- Authors: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia,
- Abstract要約: 安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
- 参考スコア(独自算出の注目度): 20.522881564776434
- License:
- Abstract: Large Language Models' safety-aligned behaviors, such as refusing harmful queries, can be represented by linear directions in activation space. Previous research modeled safety behavior with a single direction, limiting mechanistic understanding to an isolated safety feature. In this work, we discover that safety-aligned behavior is jointly controlled by multi-dimensional directions. Namely, we study the vector space of representation shifts during safety fine-tuning on Llama 3 8B for refusing jailbreaks. By studying orthogonal directions in the space, we first find that a dominant direction governs the model's refusal behavior, while multiple smaller directions represent distinct and interpretable features like hypothetical narrative and role-playing. We then measure how different directions promote or suppress the dominant direction, showing the important role of secondary directions in shaping the model's refusal representation. Finally, we demonstrate that removing certain trigger tokens in harmful queries can mitigate these directions to bypass the learned safety capability, providing new insights on understanding safety alignment vulnerability from a multi-dimensional perspective. Code and artifacts are available at https://github.com/BMPixel/safety-residual-space.
- Abstract(参考訳): 大規模言語モデルでは、有害なクエリを拒否するなど、安全に整合した振る舞いを、アクティベーション空間における線形方向で表現することができる。
従来の研究では、単一の方向で安全行動をモデル化し、機械的理解を孤立した安全特徴に制限した。
本研究では, 安全に配慮した動作が多次元方向によって協調的に制御されていることを明らかにする。
すなわち,Llama 3 8B上での安全に微調整を行う際の表現シフトのベクトル空間について検討した。
空間の直交方向を研究することで、まず、支配的な方向がモデルの拒絶行動を支配するのに対し、複数の小さな方向は仮説的物語やロールプレイングのような異なる解釈可能な特徴を表すのである。
次に、各方向が支配方向をいかに促進または抑制するかを測定し、モデルの拒絶表現を形作る上での二次方向の重要な役割を示す。
最後に、有害なクエリで特定のトリガートークンを削除することで、学習された安全性能力を回避し、多次元的な視点から安全性アライメント脆弱性を理解するための新たな洞察を提供する。
コードとアーティファクトはhttps://github.com/BMPixel/safety-residual-spaceで入手できる。
関連論文リスト
- Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Towards Inference-time Category-wise Safety Steering for Large Language Models [3.712541089289745]
大規模言語モデル(LLM)は、様々なユースケースで機能や応用が前例のない進歩を遂げている。
LLMの脆弱な性質は、トレーニングなしの推論時間法による追加の安全ステアリングステップを保証している。
本稿では,近年の推論時安全ステアリング作業と異なり,カテゴリー別ステアリングベクトルを用いたLCM出力の安全ステアリングについて検討する。
論文 参考訳(メタデータ) (2024-10-02T02:02:06Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals [52.123343364599094]
敵の攻撃は、正常な例に基づいて慎重に摂動を行い、ディープニューラルネットワーク(DNN)を騙す
まず,低次元線形部分空間において,クリーン信号と逆方向の摂動の特徴が冗長であり,重なりが最小であることを示す。
これにより、DNNは、摂動が破棄されている間、クリーン信号の特徴のみが存在する部分空間を学習することができる。
論文 参考訳(メタデータ) (2024-03-24T14:35:44Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - LatentCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions [0.02294014185517203]
本稿では,事前学習したGANの潜在空間における意味的方向を検出するための,コントラッシブ・ラーニングに基づくアプローチを提案する。
私たちのアプローチは、最先端のメソッドと互換性のある意味のある寸法を見つけます。
論文 参考訳(メタデータ) (2021-04-02T00:11:22Z) - Unsupervised Discovery of Interpretable Directions in the GAN Latent
Space [39.54530450932134]
GANモデルの潜在空間は、しばしば意味的に意味のある方向を持つ。
本稿では,事前学習したGANモデルの潜在空間における解釈可能な方向を特定するための教師なし手法を提案する。
弱教師付きサリエンシ検出のための競合性能を達成するために,この発見をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-02-10T13:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。