論文の概要: Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces
- arxiv url: http://arxiv.org/abs/2507.09709v2
- Date: Thu, 21 Aug 2025 17:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:45.976131
- Title: Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces
- Title(参考訳): 低次元線形部分空間における意味論を符号化する大言語モデル
- Authors: Baturay Saglam, Paul Kassianik, Blaine Nelson, Sajana Weerawardhena, Yaron Singer, Amin Karbasi,
- Abstract要約: 大規模言語モデル(LLM)の潜在空間幾何を理解することは、それらの振舞いとアライメントの鍵となる。
我々は6つの科学的トピックにわたる11の経験的モデルで大規模な研究を行っている。
- 参考スコア(独自算出の注目度): 31.401762286885656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the latent space geometry of large language models (LLMs) is key to interpreting their behavior and improving alignment. However, it remains unclear to what extent LLMs internally organize representations related to semantic understanding. To explore this, we conduct a large-scale empirical study of hidden representations in 11 autoregressive models across 6 scientific topics. We find that high-level semantic information consistently resides in low-dimensional subspaces that form linearly separable representations across domains. This separability becomes more pronounced in deeper layers and under prompts that elicit structured reasoning or alignment behavior$\unicode{x2013}$even when surface content remains unchanged. These findings support geometry-aware tools that operate directly in latent space to detect and mitigate harmful or adversarial content. As a proof of concept, we train an MLP probe on final-layer hidden states to act as a lightweight latent-space guardrail. This approach substantially improves refusal rates on malicious queries and prompt injections that bypass both the model's built-in safety alignment and external token-level filters.
- Abstract(参考訳): 大規模言語モデル(LLM)の潜在空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
しかし、LLMが意味理解に関連する表現をどの程度内部的に整理するかは、まだ不明である。
これを探るため,6つの科学的トピックにわたる11の自己回帰モデルにおける隠れ表現の大規模実証的研究を行った。
高レベル意味情報は、ドメイン間で線形に分離可能な表現を形成する低次元部分空間に一貫して存在する。
この分離性はより深い層でより顕著になり、表面の内容が変化しない場合、構造化された推論やアライメントの振る舞いを$\unicode{x2013}$evenで引き起こす。
これらの発見は、有害または敵対的な内容を検出し、緩和するために、潜伏空間で直接動作する幾何学的認識ツールをサポートする。
概念実証として,最終層を隠蔽した状態に対してMLPプローブを訓練し,軽量な潜在空間ガードレールとして機能させる。
このアプローチは、悪意のあるクエリの拒否率を大幅に改善し、モデルに組み込まれた安全アライメントと外部トークンレベルのフィルタの両方をバイパスするインジェクションをインジェクションする。
関連論文リスト
- Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning [6.652200654829215]
非基底整列部分空間を教師なしで学習する。
その結果、取得した部分空間内の符号化された情報は、異なる入力間で同じ抽象概念を共有する傾向にあることが示された。
また、2Bモデルに拡張性を示す証拠として、コンテキストを仲介する部分空間とパラメトリックな知識ルーティングを見つける。
論文 参考訳(メタデータ) (2025-08-03T20:59:29Z) - Vector Ontologies as an LLM world view extraction method [0.0]
大きな言語モデル(LLM)は、世界の複雑な内部表現を持っているが、これらの構造は、元の予測タスクを超えて解釈または再利用することが難しいことで知られている。
ベクトルオントロジー(英: vector ontology)は、ある領域内の概念と関係の幾何学的解析を可能にする、存在論的に有意な次元にまたがる領域固有のベクトル空間を定義する。
GPT-4o-miniを用いて、複数の自然言語プロンプトを通してジャンル表現を抽出し、これらの投影の一貫性を言語的変動と、その接地構造データとの整合性から解析する。
論文 参考訳(メタデータ) (2025-06-16T08:49:21Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Bridging the Dimensional Chasm: Uncover Layer-wise Dimensional Reduction in Transformers through Token Correlation [2.5976894391099625]
トランスフォーマー層間のトークンダイナミクスを追跡するフレームワークを開発した。
この研究はトランスフォーマー層を高次元と低次元のセマンティクスの間のプロジェクタとして再フレーミングすることで解釈可能性を向上させる。
論文 参考訳(メタデータ) (2025-03-28T15:47:30Z) - Unraveling the Localized Latents: Learning Stratified Manifold Structures in LLM Embedding Space with Sparse Mixture-of-Experts [3.9426000822656224]
大規模な言語モデルでは、埋め込みは入力データの難易度や領域によって異なる次元の局所多様体構造に存在していると推測する。
注意に基づくソフトゲーティングネットワークを組み込むことで,我々のモデルは入力データソースのアンサンブルのために,特別なサブマニフォールドを学習することを確認した。
論文 参考訳(メタデータ) (2025-02-19T09:33:16Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。
提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文 参考訳(メタデータ) (2020-12-30T17:14:25Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。