論文の概要: Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces
- arxiv url: http://arxiv.org/abs/2507.09709v1
- Date: Sun, 13 Jul 2025 17:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.858592
- Title: Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces
- Title(参考訳): 低次元線形部分空間における意味論を符号化する大言語モデル
- Authors: Baturay Saglam, Paul Kassianik, Blaine Nelson, Sajana Weerawardhena, Yaron Singer, Amin Karbasi,
- Abstract要約: 大規模言語モデル(LLM)の空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
baturay LLMが意味理解に関連する内部的な組織構造を調査する。
- 参考スコア(独自算出の注目度): 31.401762286885656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the latent space geometry of large language models (LLMs) is key to interpreting their behavior and improving alignment. \baturay{However, it remains unclear to what extent LLMs internally organize representations related to semantic understanding. To investigate this, we conduct a large-scale empirical study of hidden states in transformer-based LLMs, analyzing 11 decoder-only models across 6 scientific topics and 12 layers each. We find that high-level semantic information consistently lies in low-dimensional subspaces that form linearly separable representations across distinct domains. This separability becomes more pronounced in deeper layers and under prompts that trigger structured reasoning or alignment behaviors$\unicode{x2013}$even when surface content is unchanged. This geometry enables simple yet effective causal interventions in hidden space; for example, reasoning patterns like chain-of-thought can be captured by a single vector direction. Together, these findings support the development of geometry-aware tools that operate directly on latent representations to detect and mitigate harmful or adversarial content, using methods such as transport-based defenses that leverage this separability. As a proof of concept, we demonstrate this potential by training a simple MLP classifier as a lightweight latent-space guardrail, which detects adversarial and malicious prompts with high precision.
- Abstract(参考訳): 大規模言語モデル(LLM)の潜在空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
しかし、LLMが意味的理解に関連する表現をどの程度内部的に整理するかは、まだ不明である。
そこで本研究では,変圧器をベースとしたLLMにおける隠れ状態の大規模実験を行い,11のデコーダのみのモデルを6つの科学的トピックと12のレイヤで解析した。
高レベル意味情報は、異なる領域にまたがって線形に分離可能な表現を形成する低次元部分空間に一貫して存在する。
この分離性は、より深い層や下層ではより顕著になり、構造的推論やアライメントの振る舞いをトリガーするプロンプト(英語版)$\unicode{x2013}$even)となる。
この幾何学は、隠れ空間における単純かつ効果的な因果介入を可能にし、例えば、チェーン・オブ・シントのような推論パターンを単一のベクトル方向で捉えることができる。
これらの知見は, この分離性を利用した輸送型防衛などの手法を用いて, 有害なコンテンツや敵対的コンテンツの検出・緩和を行うために, 潜伏表現を直接操作する幾何学的ツールの開発を支援する。
概念実証として、単純なMLP分類器を軽量な潜在空間ガードレールとして訓練し、高い精度で敵対的かつ悪意のあるプロンプトを検出することにより、この可能性を実証する。
関連論文リスト
- Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning [6.652200654829215]
非基底整列部分空間を教師なしで学習する。
その結果、取得した部分空間内の符号化された情報は、異なる入力間で同じ抽象概念を共有する傾向にあることが示された。
また、2Bモデルに拡張性を示す証拠として、コンテキストを仲介する部分空間とパラメトリックな知識ルーティングを見つける。
論文 参考訳(メタデータ) (2025-08-03T20:59:29Z) - Vector Ontologies as an LLM world view extraction method [0.0]
大きな言語モデル(LLM)は、世界の複雑な内部表現を持っているが、これらの構造は、元の予測タスクを超えて解釈または再利用することが難しいことで知られている。
ベクトルオントロジー(英: vector ontology)は、ある領域内の概念と関係の幾何学的解析を可能にする、存在論的に有意な次元にまたがる領域固有のベクトル空間を定義する。
GPT-4o-miniを用いて、複数の自然言語プロンプトを通してジャンル表現を抽出し、これらの投影の一貫性を言語的変動と、その接地構造データとの整合性から解析する。
論文 参考訳(メタデータ) (2025-06-16T08:49:21Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation [2.5976894391099625]
トランスフォーマー層間のトークンダイナミクスを追跡するフレームワークを開発した。
この研究はトランスフォーマー層を高次元と低次元のセマンティクスの間のプロジェクタとして再フレーミングすることで解釈可能性を向上させる。
論文 参考訳(メタデータ) (2025-03-28T15:47:30Z) - Unraveling the Localized Latents: Learning Stratified Manifold Structures in LLM Embedding Space with Sparse Mixture-of-Experts [3.9426000822656224]
大規模な言語モデルでは、埋め込みは入力データの難易度や領域によって異なる次元の局所多様体構造に存在していると推測する。
注意に基づくソフトゲーティングネットワークを組み込むことで,我々のモデルは入力データソースのアンサンブルのために,特別なサブマニフォールドを学習することを確認した。
論文 参考訳(メタデータ) (2025-02-19T09:33:16Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。
提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文 参考訳(メタデータ) (2020-12-30T17:14:25Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。