論文の概要: Symmetry in language statistics shapes the geometry of model representations
- arxiv url: http://arxiv.org/abs/2602.15029v1
- Date: Mon, 16 Feb 2026 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.650814
- Title: Symmetry in language statistics shapes the geometry of model representations
- Title(参考訳): 言語統計学における対称性はモデル表現の幾何学を形成する
- Authors: Dhruva Karkada, Daniel J. Korchinski, Andres Nava, Matthieu Wyart, Yasaman Bahri,
- Abstract要約: 言語統計学は翻訳対称性を示す。
後者は,高次元単語埋め込みモデルにおいて,上記の幾何学的構造を支配下に置くことを証明する。
このロバスト性は、共起統計値が基礎となる連続潜伏変数によって集合的に制御されている場合に自然に現れることを示す。
- 参考スコア(独自算出の注目度): 8.371687575566714
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although learned representations underlie neural networks' success, their fundamental properties remain poorly understood. A striking example is the emergence of simple geometric structures in LLM representations: for example, calendar months organize into a circle, years form a smooth one-dimensional manifold, and cities' latitudes and longitudes can be decoded by a linear probe. We show that the statistics of language exhibit a translation symmetry -- e.g., the co-occurrence probability of two months depends only on the time interval between them -- and we prove that the latter governs the aforementioned geometric structures in high-dimensional word embedding models. Moreover, we find that these structures persist even when the co-occurrence statistics are strongly perturbed (for example, by removing all sentences in which two months appear together) and at moderate embedding dimension. We show that this robustness naturally emerges if the co-occurrence statistics are collectively controlled by an underlying continuous latent variable. We empirically validate this theoretical framework in word embedding models, text embedding models, and large language models.
- Abstract(参考訳): 学習された表現はニューラルネットワークの成功を支えているが、その基本的な性質はよく分かっていない。
例えば、カレンダーは円に整理され、年は滑らかな1次元多様体を形成し、都市の緯度と経度は線形プローブによって復号することができる。
言語統計学は2ヶ月の共起確率がそれらの間の時間間隔にのみ依存していることを示し、後者が高次元単語埋め込みモデルにおける上記の幾何学的構造を支配していることを証明した。
さらに、これらの構造は、共起統計値が強い乱れ(例えば、2ヶ月が一緒に現れるすべての文を除去するなど)であっても、中程度の埋め込み次元で持続する。
このロバスト性は、共起統計値が基礎となる連続潜伏変数によって集合的に制御されている場合に自然に現れることを示す。
単語埋め込みモデル、テキスト埋め込みモデル、および大規模言語モデルにおいて、この理論的枠組みを実証的に検証する。
関連論文リスト
- The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors [24.477029700560113]
大規模言語モデル(LLM)は、迅速な条件付き信念(回答とクレームに対する後見者)を表す。
Llama-3.2はそのパラメータを暗黙的に推論することで、正規分布からサンプルを生成する制御条件について検討する。
これらのパラメータに対する曲線 "ビリーフ多様体" の表現は、十分な文脈内学習によって形成される。
論文 参考訳(メタデータ) (2026-02-02T16:45:05Z) - Event2Vec: A Geometric Approach to Learning Composable Representations of Event Sequences [0.15229257192293197]
離散イベントシーケンスの表現を学習するための新しいフレームワークであるEvent2Vecを紹介する。
ユークリッド空間におけるモデルの学習表現が理想的な加法構造に収束することを示す理論的解析を提供する。
階層データに対するユークリッド幾何学の限界に対処するため、双曲空間における我々のモデルの変種も導入する。
論文 参考訳(メタデータ) (2025-09-15T17:51:02Z) - Shared Global and Local Geometry of Language Model Embeddings [46.33317507982751]
大規模言語モデルのトークン埋め込みに多くの幾何学的類似性を見いだす。
局所幾何学は,(1)局所線形埋め込みを用いて,(2)各埋め込みの内在次元の簡単な測度を定義することによって特徴付ける。
論文 参考訳(メタデータ) (2025-03-27T01:17:06Z) - (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Arrows of Time for Large Language Models [3.5678162800263307]
自己回帰大言語モデル(LLM)による確率的モデリングを時間方向の角度から検討する。
十分に大きなモデルでは、自然言語を学習する能力において、次のトークンを予測しようとする場合と、前のトークンを予測しようとする場合との平均ログパープレキシティの違いという、タイム非対称性が経験的に見つかる。
論文 参考訳(メタデータ) (2024-01-30T23:46:35Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Geometry of Similarity Comparisons [51.552779977889045]
空間形式の順序容量は、その次元と曲率の符号に関係していることを示す。
さらに重要なことは、類似性グラフ上で定義された順序拡散確率変数の統計的挙動が、その基礎となる空間形式を特定するのに利用できることである。
論文 参考訳(メタデータ) (2020-06-17T13:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。