論文の概要: The Geometry of Harmfulness in LLMs through Subconcept Probing
- arxiv url: http://arxiv.org/abs/2507.21141v1
- Date: Wed, 23 Jul 2025 07:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:54.987215
- Title: The Geometry of Harmfulness in LLMs through Subconcept Probing
- Title(参考訳): サブコンセプション法によるLLMのハームフルネスの幾何学
- Authors: McNair Shah, Saleena Angeline, Adhitya Rajendra Kumar, Naitik Chheda, Kevin Zhu, Vasu Sharma, Sean O'Brien, Will Cai,
- Abstract要約: 本稿では,言語モデルにおける有害なコンテンツの探索とステアリングのための多次元フレームワークを提案する。
55個の異なる有害な部分概念に対して、線形プローブを学習し、活性化空間において55個の解釈可能な方向を導出する。
次に、モデル内部から部分空間全体のアブレーション、および部分空間の支配的な方向におけるステアリングとアブレーションをテストする。
- 参考スコア(独自算出の注目度): 3.6335172274433414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have intensified the need to understand and reliably curb their harmful behaviours. We introduce a multidimensional framework for probing and steering harmful content in model internals. For each of 55 distinct harmfulness subconcepts (e.g., racial hate, employment scams, weapons), we learn a linear probe, yielding 55 interpretable directions in activation space. Collectively, these directions span a harmfulness subspace that we show is strikingly low-rank. We then test ablation of the entire subspace from model internals, as well as steering and ablation in the subspace's dominant direction. We find that dominant direction steering allows for near elimination of harmfulness with a low decrease in utility. Our findings advance the emerging view that concept subspaces provide a scalable lens on LLM behaviour and offer practical tools for the community to audit and harden future generations of language models.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、それらの有害な振る舞いを理解し、確実に抑制する必要性を強めている。
本稿では,モデル内部の有害なコンテンツを探索し,操る多次元フレームワークを提案する。
55の異なる有害なサブコンセプト(人種的憎悪、雇用詐欺、武器など)に対して、線形プローブを学習し、活性化空間において55の解釈可能な方向を導出する。
集合的に見て、これらの方向は有害な部分空間にまたがっており、非常に低ランクである。
次に、モデル内部から部分空間全体のアブレーション、および部分空間の支配的な方向におけるステアリングとアブレーションをテストする。
支配的な方向のステアリングは有害性のほぼ排除を可能とし, 実用性は低下する。
我々の発見は、概念サブスペースがLLMの振る舞いにスケーラブルなレンズを提供し、コミュニティが将来の言語モデルの監査と強化を行うための実践的なツールを提供するという、新たな見方を前進させるものである。
関連論文リスト
- Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning [6.652200654829215]
非基底整列部分空間を教師なしで学習する。
その結果、取得した部分空間内の符号化された情報は、異なる入力間で同じ抽象概念を共有する傾向にあることが示された。
また、2Bモデルに拡張性を示す証拠として、コンテキストを仲介する部分空間とパラメトリックな知識ルーティングを見つける。
論文 参考訳(メタデータ) (2025-08-03T20:59:29Z) - Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs [0.0]
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
論文 参考訳(メタデータ) (2025-07-04T15:36:58Z) - SAE-SSV: Supervised Steering in Sparse Representation Spaces for Reliable Control of Language Models [41.553639748766784]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では,スパースで解釈可能な表現空間で動作する新しい教師付きステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:57Z) - Safety Subspaces are Not Distinct: A Fine-Tuning Case Study [4.724646466332421]
安全関連行動が特定の部分空間に集中しているかを検討する。
安全を選択的に支配する部分空間の証拠は見つからない。
これは、サブスペースベースの防御が基本的な制限に直面していることを示唆している。
論文 参考訳(メタデータ) (2025-05-20T10:41:49Z) - The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions [20.522881564776434]
安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
論文 参考訳(メタデータ) (2025-02-13T06:39:22Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals [52.123343364599094]
敵の攻撃は、正常な例に基づいて慎重に摂動を行い、ディープニューラルネットワーク(DNN)を騙す
まず,低次元線形部分空間において,クリーン信号と逆方向の摂動の特徴が冗長であり,重なりが最小であることを示す。
これにより、DNNは、摂動が破棄されている間、クリーン信号の特徴のみが存在する部分空間を学習することができる。
論文 参考訳(メタデータ) (2024-03-24T14:35:44Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - A Geometric Notion of Causal Probing [85.49839090913515]
線形部分空間仮説は、言語モデルの表現空間において、動詞数のような概念に関するすべての情報が線形部分空間に符号化されていることを述べる。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
2つの言語モデルにまたがる少なくとも1つの概念に対して、この概念のサブスペースは、生成された単語の概念値を精度良く操作することができる。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Unsupervised Discriminative Embedding for Sub-Action Learning in Complex
Activities [54.615003524001686]
本稿では,複雑な活動における教師なしサブアクション学習の新たなアプローチを提案する。
提案手法は,視覚表現と時間表現の両方を,サブアクションを識別的に学習する潜在空間にマッピングする。
視覚-時空間埋め込みと判別的潜在概念の組み合わせにより,教師なし設定でロバストな動作表現を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-30T20:07:27Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。