論文の概要: Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.00029v1
- Date: Wed, 04 Feb 2026 06:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.975859
- Title: Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models
- Title(参考訳): 異方性を受け入れる:大規模言語モデルのための大量活性化を解釈可能な制御ノブに変換する
- Authors: Youngji Roh, Hyunjin Cho, Jaehyung Kim,
- Abstract要約: そこで本稿では,ドメイン・クリティカル・ディメンションを学習自由な方法で識別するための簡易な等級基準を提案する。
本分析により,これらの次元は,記号的・定性的パターンやドメイン固有項の解釈可能な意味検出器として振る舞うことが明らかとなった。
さらに,特定次元にのみアクティベーションステアリングを適用するCritical Dimension Steeringを導入する。
- 参考スコア(独自算出の注目度): 6.233211865365017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit highly anisotropic internal representations, often characterized by massive activations, a phenomenon where a small subset of feature dimensions possesses magnitudes significantly larger than the rest. While prior works view these extreme dimensions primarily as artifacts to be managed, we propose a distinct perspective: these dimensions serve as intrinsic interpretable functional units arising from domain specialization. Specifically, we propose a simple magnitude-based criterion to identify Domain-Critical Dimensions in a training-free manner. Our analyses reveal that such dimensions behave as interpretable semantic detectors for symbolic/quantitative patterns or domain-specific terms. In addition, we introduce Critical Dimension Steering, which applies activation steering exclusively to the identified dimensions. Empirical results show that this approach outperforms conventional whole-dimension steering in domain adaptation and jailbreaking scenarios.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば大きな活性化によって特徴づけられる非常に異方性のある内部表現を示す。
先行研究は、これらの極端次元を、主に管理すべきアーティファクトとみなすが、異なる視点を提唱する: これらの次元は、ドメインの特殊化から生じる固有の解釈可能な機能単位として機能する。
具体的には,ドメイン・クリティカル・ディメンションを学習自由な方法で識別するための簡易な等級基準を提案する。
本分析により,これらの次元は,記号的・定性的パターンやドメイン固有項の解釈可能な意味検出器として振る舞うことが明らかとなった。
さらに,特定次元にのみアクティベーションステアリングを適用するCritical Dimension Steeringを導入する。
実証的な結果から、このアプローチはドメイン適応やジェイルブレイクシナリオにおいて従来の全次元ステアリングよりも優れていたことが分かる。
関連論文リスト
- Towards Size-invariant Salient Object Detection: A Generic Evaluation and Optimization Approach [118.75896764188424]
本稿では,既存の広範に使用されているSalient Object Detectionメトリクスの固有サイズ感度を明らかにするために,新しい視点を示す。
この課題に対処するため、汎用的なサイズ不変評価(SIEva)フレームワークが提案されている。
さらに、サイズ不変の原理に固執する専用最適化フレームワーク(SIOpt)を開発し、幅広いサイズにわたる有能な物体の検出を大幅に強化する。
論文 参考訳(メタデータ) (2025-09-19T04:12:14Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Intriguing Equivalence Structures of the Embedding Space of Vision
Transformers [1.7418480517632609]
事前訓練された大規模な基盤モデルは、最近の人工知能の急増において中心的な役割を果たす。
それら固有の複雑さのため、これらのモデルはよく理解されていない。
解析および系統的な実験により、表現空間は大きな片方向線型部分空間からなることを示す。
論文 参考訳(メタデータ) (2024-01-28T04:59:51Z) - Minimum intrinsic dimension scaling for entropic optimal transport [3.7257289916860152]
我々は,データ固有の次元に敏感なエントロピー最適輸送のための統計的境界を開発する。
MIDスケーリングは一般的な現象であり、エントロピー正則化の統計的効果を距離スケールとして初めて厳密に解釈する。
論文 参考訳(メタデータ) (2023-06-06T04:28:12Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Operator scaling dimensions and multifractality at measurement-induced
transitions [0.0]
量子多体系の繰り返し局所測定は、その絡み合い構造における相転移を誘導することができる。
本稿では,これらの相転移を管理する共形場理論の特性を数値遷移行列法を用いて検討する。
この結果は、ジェネリックとクリフォードMIPTが異なるクラスに存在し、どちらも大きなヒルベルト空間次元の極限における立方体に対するパーコレーション遷移とは異なっているという確証を与える。
論文 参考訳(メタデータ) (2021-07-07T18:00:01Z) - Intrinsic Dimension Estimation [92.87600241234344]
内在次元の新しい推定器を導入し, 有限標本, 非漸近保証を提供する。
次に、本手法を適用して、データ固有の次元に依存するGAN(Generative Adversarial Networks)に対する新しいサンプル複雑性境界を求める。
論文 参考訳(メタデータ) (2021-06-08T00:05:39Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。