論文の概要: The Blessing and Curse of Dimensionality in Safety Alignment
- arxiv url: http://arxiv.org/abs/2507.20333v1
- Date: Sun, 27 Jul 2025 15:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.388589
- Title: The Blessing and Curse of Dimensionality in Safety Alignment
- Title(参考訳): 安全アライメントにおける寸法の祝福と曲線
- Authors: Rachel S. Y. Teo, Laziz U. Abdullaev, Tan M. Nguyen,
- Abstract要約: 高次元表現の呪いが大きな言語モデル(LLM)に一意に影響を及ぼすことを示す。
モデル表現を低次元部分空間に投影することで、それらの線形構造を回避しつつアライメントのための十分な情報を保持することができることを示す。
- 参考スコア(独自算出の注目度): 1.9224072957714322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The focus on safety alignment in large language models (LLMs) has increased significantly due to their widespread adoption across different domains. The scale of LLMs play a contributing role in their success, and the growth in parameter count follows larger hidden dimensions. In this paper, we hypothesize that while the increase in dimensions has been a key advantage, it may lead to emergent problems as well. These problems emerge as the linear structures in the activation space can be exploited, in the form of activation engineering, to circumvent its safety alignment. Through detailed visualizations of linear subspaces associated with different concepts, such as safety, across various model scales, we show that the curse of high-dimensional representations uniquely impacts LLMs. Further substantiating our claim, we demonstrate that projecting the representations of the model onto a lower dimensional subspace can preserve sufficient information for alignment while avoiding those linear structures. Empirical results confirm that such dimensional reduction significantly reduces susceptibility to jailbreaking through representation engineering. Building on our empirical validations, we provide theoretical insights into these linear jailbreaking methods relative to a model's hidden dimensions. Broadly speaking, our work posits that the high dimensions of a model's internal representations can be both a blessing and a curse in safety alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)における安全性の整合性に焦点が当てられているのは、異なるドメインで広く採用されているためである。
LLMの規模は成功に寄与し、パラメータ数の増加は大きな隠れ次元に従う。
本稿では,次元の増大が重要な優位性である一方で,創発的な問題も生じていると仮定する。
これらの問題は、アクティベーション空間の線形構造をアクティベーション工学の形で利用し、その安全アライメントを回避するために現れる。
安全性など,様々なモデルスケールにおける線形部分空間の詳細な可視化を通して,高次元表現の呪いがLLMに一意に影響を及ぼすことを示す。
さらに我々は,モデルの表現を低次元部分空間に投影することで,それらの線形構造を回避しながらアライメントのための十分な情報を保持することができることを示した。
実験の結果、このような次元の減少は、表現工学によるジェイルブレイクに対する感受性を著しく低下させることが確認された。
経験的検証に基づいて、モデルの隠れ次元に対するこれらの線形ジェイルブレイク法に関する理論的知見を提供する。
我々の研究は、モデルの内部表現の高次元が、安全アライメントにおける祝福と呪いの両方になり得ることを示唆している。
関連論文リスト
- Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
baturay LLMが意味理解に関連する内部的な組織構造を調査する。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs [0.0]
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
論文 参考訳(メタデータ) (2025-07-04T15:36:58Z) - Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment? [73.80382983108997]
表現の介入(Representation intervention)は、大規模言語モデルにおいて基礎となる概念を符号化する表現の発見と修正を目的としている。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的敵のプロンプトとアウト・オブ・ディストリビューションのジェイルブレイクの両方に対して堅牢であるべきである。
本研究では,有害表現と良性表現の境界を簡易化する概念集中(COCA)を提案する。
論文 参考訳(メタデータ) (2025-05-24T12:23:52Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models [92.38300626647342]
タスク固有のデータセット上でのLLM(Fun-tuning Large Language Model)は、LLMの第一の用途である。
本稿では,LLMファインチューニング戦略の安全性と能力の相互作用を理解するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:41:57Z) - The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions [20.522881564776434]
安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
論文 参考訳(メタデータ) (2025-02-13T06:39:22Z) - Preventing Dimensional Collapse in Self-Supervised Learning via Orthogonality Regularization [9.823816643319448]
自己教師付き学習(SSL)は近年急速に進歩し、教師付き学習のパフォーマンスに近づいている。
数個の大きな固有値が固有空間を支配する次元崩壊は、SSLにとって重要な障害となる。
論文 参考訳(メタデータ) (2024-11-01T06:39:18Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Explicitly Encouraging Low Fractional Dimensional Trajectories Via
Reinforcement Learning [6.548580592686076]
モデル自由強化学習エージェントによって誘導される軌道の次元性は,エージェント報酬信号にポストプロセッシング関数を追加することで影響できることを示す。
システムに付加されるノイズに対して寸法の低減が堅牢であることを検証するとともに, 改良されたエージェントは, 一般に, 騒音や押圧障害に対してより現実的に堅牢であることを示す。
論文 参考訳(メタデータ) (2020-12-21T20:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。