論文の概要: Latent Semantic Manifolds in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.22301v1
- Date: Tue, 17 Mar 2026 13:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.035338
- Title: Latent Semantic Manifolds in Large Language Models
- Title(参考訳): 大規模言語モデルにおける潜在意味多様体
- Authors: Mohamed A. Mabrok,
- Abstract要約: 本研究では,大規模言語モデルに隠れた状態を潜在意味多様体上の点として解釈する数学的枠組みを開発する。
我々は2つの定理を証明し、任意の有限語彙に対する歪みに対する速度歪みの低い境界と、表現可能性ギャップに対する線形体積スケーリング法則を証明した。
本稿では,アーキテクチャ設計,モデル圧縮,復号化戦略,スケーリング法則について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) perform internal computations in continuous vector spaces yet produce discrete tokens -- a fundamental mismatch whose geometric consequences remain poorly understood. We develop a mathematical framework that interprets LLM hidden states as points on a latent semantic manifold: a Riemannian submanifold equipped with the Fisher information metric, where tokens correspond to Voronoi regions partitioning the manifold. We define the expressibility gap, a geometric measure of the semantic distortion from vocabulary discretization, and prove two theorems: a rate-distortion lower bound on distortion for any finite vocabulary, and a linear volume scaling law for the expressibility gap via the coarea formula. We validate these predictions across six transformer architectures (124M-1.5B parameters), confirming universal hourglass intrinsic dimension profiles, smooth curvature structure, and linear gap scaling with slopes 0.87-1.12 (R^2 > 0.985). The margin distribution across models reveals a persistent hard core of boundary-proximal representations invariant to scale, providing a geometric decomposition of perplexity. We discuss implications for architecture design, model compression, decoding strategies, and scaling laws
- Abstract(参考訳): 大規模言語モデル(LLM)は連続ベクトル空間で内部計算を行うが、離散トークンを生成する。
我々は,LLM隠れ状態を潜在意味多様体上の点として解釈する数学的枠組みを開発する。フィッシャー情報計量を備えたリーマン部分多様体で,トークンは多様体を分割するボロノイ領域に対応する。
我々は、表現可能性ギャップ、語彙の離散化による意味的歪みの幾何学的尺度を定義し、任意の有限語彙の歪みに対する速度歪みの下限と、コアレ式による表現可能性ギャップに対する線形体積スケーリング法という2つの定理を証明した。
これらの予測は、6つの変圧器アーキテクチャ(124M-1.5Bパラメータ)にまたがって検証され、普遍的な時間ガラス固有次元プロファイル、滑らかな曲率構造、勾配0.87-1.12(R^2 > 0.985)による線形ギャップスケーリングが確認された。
モデル間のマージン分布は、スケールに不変な境界-近近表現の永続的なハードコアを示し、パープレキシティの幾何学的分解をもたらす。
アーキテクチャ設計、モデル圧縮、デコード戦略、スケーリング法則の意義について論じる。
関連論文リスト
- Causal Manifold Fairness: Enforcing Geometric Invariance in Representation Learning [0.0]
本稿では,因果推論と幾何学的深層学習を橋渡しする新しいフレームワークであるCausal Manifold Fairness(CMF)を紹介する。
デコーダのヤコビアンとヘシアンに制約を課すことにより、CMFは潜在空間の規則が階層群全体にわたって保持されることを保証する。
CMFを合成構造因果モデル (SCMs) で検証し, タスクユーティリティを保ちながら, 敏感な幾何学的歪みを効果的に解消することを示した。
論文 参考訳(メタデータ) (2026-01-06T14:05:22Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Learning Latent Graph Geometry via Fixed-Point Schrödinger-Type Activation: A Theoretical Study [1.1745324895296467]
我々は、学習された潜在グラフ上の散逸的シュリンガー型ダイナミクスの定常状態として内部表現が進化するニューラルアーキテクチャの統一的理論的枠組みを開発する。
我々は、平衡の存在、一意性、滑らかな依存を証明し、力学がノルム保存ランダウ-リフシッツ流にブロッホ写像の下で等価であることを示す。
結果として得られるモデルクラスは、固定点 Schr"odinger 型のアクティベーションを通して潜在グラフ幾何学を学ぶためのコンパクトで幾何学的に解釈可能で解析的に抽出可能な基礎を提供する。
論文 参考訳(メタデータ) (2025-07-27T00:35:15Z) - TokenBlowUp: Resolving Representational Singularities in LLM Token Spaces via Monoidal Transformations [0.9179857807576733]
最近の研究は、大規模言語モデルのトークン埋め込み空間に対する基礎多様体仮説に挑戦する説得力のある証拠を提供している。
我々はこの問題をスキーム理論の言語で定式化し、スキーム理論のブローアップを各特異点に適用することにより厳密な解法を提案する。
我々は、この新しい空間の幾何学的正則化を保証する公式な定理を証明し、元の病理が解決されたことを示す。
論文 参考訳(メタデータ) (2025-07-26T02:39:54Z) - Curved Inference: Concern-Sensitive Geometry in Large Language Model Residual Streams [0.0]
本稿では,大言語モデルの残差ストリーム軌跡が意味的関心事の変化に応じてどのように曲げられるかを追跡する幾何学的解釈可能性フレームワークを提案する。
Gemma3-1bとLLaMA3.2-3bを5つのネイティブ空間メトリクスを用いて解析し、曲率(kappa_i)とサリエンス(S(t))に着目した。
いずれのモデルにおいても,アクティベーショントラジェクトリが確実に変更されることが示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:05:00Z) - Topological Obstructions and How to Avoid Them [22.45861345237023]
局所最適性は特異点や不正確な次数や巻数によって生じる可能性があることを示す。
本稿では,データポイントを幾何学空間上のマルチモーダル分布にマッピングするフローベースモデルを提案する。
論文 参考訳(メタデータ) (2023-12-12T18:56:14Z) - Scaling Riemannian Diffusion Models [68.52820280448991]
非自明な多様体上の高次元タスクにスケールできることを示す。
我々は、$SU(n)$格子上のQCD密度と高次元超球面上の対照的に学習された埋め込みをモデル化する。
論文 参考訳(メタデータ) (2023-10-30T21:27:53Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - Shape And Structure Preserving Differential Privacy [70.08490462870144]
正方形距離関数の勾配がラプラス機構よりも感度をよりよく制御できることを示す。
また,2乗距離関数の勾配を用いることで,ラプラス機構よりも感度を制御できることを示す。
論文 参考訳(メタデータ) (2022-09-21T18:14:38Z) - A Unifying and Canonical Description of Measure-Preserving Diffusions [60.59592461429012]
ユークリッド空間における測度保存拡散の完全なレシピは、最近、いくつかのMCMCアルゴリズムを単一のフレームワークに統合した。
我々は、この構成を任意の多様体に改善し一般化する幾何学理論を開発する。
論文 参考訳(メタデータ) (2021-05-06T17:36:55Z) - Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。
多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。
本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。
実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文 参考訳(メタデータ) (2020-07-07T10:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。