論文の概要: Symmetry in language statistics shapes the geometry of model representations
- arxiv url: http://arxiv.org/abs/2602.15029v1
- Date: Mon, 16 Feb 2026 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.650814
- Title: Symmetry in language statistics shapes the geometry of model representations
- Title(参考訳): 言語統計学における対称性はモデル表現の幾何学を形成する
- Authors: Dhruva Karkada, Daniel J. Korchinski, Andres Nava, Matthieu Wyart, Yasaman Bahri,
- Abstract要約: 言語統計学は翻訳対称性を示す。
後者は,高次元単語埋め込みモデルにおいて,上記の幾何学的構造を支配下に置くことを証明する。
このロバスト性は、共起統計値が基礎となる連続潜伏変数によって集合的に制御されている場合に自然に現れることを示す。
- 参考スコア(独自算出の注目度): 8.371687575566714
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although learned representations underlie neural networks' success, their fundamental properties remain poorly understood. A striking example is the emergence of simple geometric structures in LLM representations: for example, calendar months organize into a circle, years form a smooth one-dimensional manifold, and cities' latitudes and longitudes can be decoded by a linear probe. We show that the statistics of language exhibit a translation symmetry -- e.g., the co-occurrence probability of two months depends only on the time interval between them -- and we prove that the latter governs the aforementioned geometric structures in high-dimensional word embedding models. Moreover, we find that these structures persist even when the co-occurrence statistics are strongly perturbed (for example, by removing all sentences in which two months appear together) and at moderate embedding dimension. We show that this robustness naturally emerges if the co-occurrence statistics are collectively controlled by an underlying continuous latent variable. We empirically validate this theoretical framework in word embedding models, text embedding models, and large language models.
- Abstract(参考訳): 学習された表現はニューラルネットワークの成功を支えているが、その基本的な性質はよく分かっていない。
例えば、カレンダーは円に整理され、年は滑らかな1次元多様体を形成し、都市の緯度と経度は線形プローブによって復号することができる。
言語統計学は2ヶ月の共起確率がそれらの間の時間間隔にのみ依存していることを示し、後者が高次元単語埋め込みモデルにおける上記の幾何学的構造を支配していることを証明した。
さらに、これらの構造は、共起統計値が強い乱れ(例えば、2ヶ月が一緒に現れるすべての文を除去するなど)であっても、中程度の埋め込み次元で持続する。
このロバスト性は、共起統計値が基礎となる連続潜伏変数によって集合的に制御されている場合に自然に現れることを示す。
単語埋め込みモデル、テキスト埋め込みモデル、および大規模言語モデルにおいて、この理論的枠組みを実証的に検証する。
関連論文リスト
- The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors [24.477029700560113]
大規模言語モデル(LLM)は、迅速な条件付き信念(回答とクレームに対する後見者)を表す。
Llama-3.2はそのパラメータを暗黙的に推論することで、正規分布からサンプルを生成する制御条件について検討する。
これらのパラメータに対する曲線 "ビリーフ多様体" の表現は、十分な文脈内学習によって形成される。
論文 参考訳(メタデータ) (2026-02-02T16:45:05Z) - Steering Embedding Models with Geometric Rotation: Mapping Semantic Relationships Across Languages and Models [2.3204178451683264]
埋め込み空間における一貫した回転操作として意味変換を表現する幾何学的アプローチであるRotor-Invariant Shift Estimation (RISE)を導入する。
RISE操作は高い性能で言語とモデルの両方をまたいで動作することができる。
この研究は、談話レベルの意味変換が多言語埋め込み空間における一貫した幾何学的操作に対応するという最初の体系的な実証を提供する。
論文 参考訳(メタデータ) (2025-10-10T18:51:32Z) - Event2Vec: A Geometric Approach to Learning Composable Representations of Event Sequences [0.15229257192293197]
離散イベントシーケンスの表現を学習するための新しいフレームワークであるEvent2Vecを紹介する。
ユークリッド空間におけるモデルの学習表現が理想的な加法構造に収束することを示す理論的解析を提供する。
階層データに対するユークリッド幾何学の限界に対処するため、双曲空間における我々のモデルの変種も導入する。
論文 参考訳(メタデータ) (2025-09-15T17:51:02Z) - TokenBlowUp: Resolving Representational Singularities in LLM Token Spaces via Monoidal Transformations [0.9179857807576733]
最近の研究は、大規模言語モデルのトークン埋め込み空間に対する基礎多様体仮説に挑戦する説得力のある証拠を提供している。
我々はこの問題をスキーム理論の言語で定式化し、スキーム理論のブローアップを各特異点に適用することにより厳密な解法を提案する。
我々は、この新しい空間の幾何学的正則化を保証する公式な定理を証明し、元の病理が解決されたことを示す。
論文 参考訳(メタデータ) (2025-07-26T02:39:54Z) - The language of time: a language model perspective on time-series foundation models [7.113398204739559]
パッチベース時系列基礎モデルの表現学習機構と一般化能力について検討する。
我々の研究は、大規模時系列基礎モデルの安全性と信頼性を理解し、評価し、改善するための厳密な理論基盤を提供する。
論文 参考訳(メタデータ) (2025-06-29T14:03:34Z) - Shared Global and Local Geometry of Language Model Embeddings [46.33317507982751]
大規模言語モデルのトークン埋め込みに多くの幾何学的類似性を見いだす。
局所幾何学は,(1)局所線形埋め込みを用いて,(2)各埋め込みの内在次元の簡単な測度を定義することによって特徴付ける。
論文 参考訳(メタデータ) (2025-03-27T01:17:06Z) - (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Arrows of Time for Large Language Models [3.5678162800263307]
自己回帰大言語モデル(LLM)による確率的モデリングを時間方向の角度から検討する。
十分に大きなモデルでは、自然言語を学習する能力において、次のトークンを予測しようとする場合と、前のトークンを予測しようとする場合との平均ログパープレキシティの違いという、タイム非対称性が経験的に見つかる。
論文 参考訳(メタデータ) (2024-01-30T23:46:35Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Geometry of Similarity Comparisons [51.552779977889045]
空間形式の順序容量は、その次元と曲率の符号に関係していることを示す。
さらに重要なことは、類似性グラフ上で定義された順序拡散確率変数の統計的挙動が、その基礎となる空間形式を特定するのに利用できることである。
論文 参考訳(メタデータ) (2020-06-17T13:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。