論文の概要: Grid-World Representations in Transformers Reflect Predictive Geometry
- arxiv url: http://arxiv.org/abs/2603.16689v1
- Date: Tue, 17 Mar 2026 15:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.385153
- Title: Grid-World Representations in Transformers Reflect Predictive Geometry
- Title(参考訳): 変圧器のグリッドワールド表現は予測幾何学を反映する
- Authors: Sasha Brenner, Thomas R. Knösche, Nico Scherf,
- Abstract要約: 次世代予測器は、しばしば潜伏世界の内部表現とその規則を発達させる。
ランダムウォークの正確な分布からサンプリングしたベクトルに対してデコーダのみの変換器を訓練する。
モデルと層をまたいで、学習された表現は基底真実の予測ベクトルと強く一致し、しばしば低次元である。
単純化された玩具システムで実証されているが、最適予測を支持する接頭辞表現は、ニューラルネットワークが文法やその他の構造的制約を内部化する方法を研究する上で有用なレンズとなる可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next-token predictors often appear to develop internal representations of the latent world and its rules. The probabilistic nature of these models suggests a deep connection between the structure of the world and the geometry of probability distributions. In order to understand this link more precisely, we use a minimal stochastic process as a controlled setting: constrained random walks on a two-dimensional lattice that must reach a fixed endpoint after a predetermined number of steps. Optimal prediction of this process solely depends on a sufficient vector determined by the walker's position relative to the target and the remaining time horizon; in other words, the probability distributions are parametrized by the world's geometry. We train decoder-only transformers on prefixes sampled from the exact distribution of these walks and compare their hidden activations to the analytically derived sufficient vectors. Across models and layers, the learned representations align strongly with the ground-truth predictive vectors and are often low-dimensional. This provides a concrete example in which world-model-like representations can be directly traced back to the predictive geometry of the data itself. Although demonstrated in a simplified toy system, the analysis suggests that geometric representations supporting optimal prediction may provide a useful lens for studying how neural networks internalize grammatical and other structural constraints.
- Abstract(参考訳): 次世代予測器は、しばしば潜伏世界の内部表現とその規則を発達させる。
これらのモデルの確率的性質は、世界の構造と確率分布の幾何学との深い関係を示唆している。
このリンクをより正確に理解するために、最小確率過程を制御された設定として使用します。
このプロセスの最適予測は、目標と残りの時間地平線に対する歩行者の位置によって決定される十分ベクトルのみに依存し、言い換えれば、確率分布は世界の幾何学によってパラメトリゼーションされる。
これらのウォークの正確な分布からサンプリングしたプレフィックスに対してデコーダのみのトランスフォーマーを訓練し、隠れたアクティベーションを解析的に導出された十分なベクトルと比較する。
モデルと層をまたいで、学習された表現は基底真実の予測ベクトルと強く一致し、しばしば低次元である。
これは、ワールドモデルのような表現が、データ自体の予測幾何学に直接遡ることができる具体的な例を提供する。
単純化された玩具システムで実証されているが、最適予測をサポートする幾何学的表現は、ニューラルネットワークが文法やその他の構造的制約を内部化する方法を研究するのに有用なレンズとなる可能性があることを示唆している。
関連論文リスト
- Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Learning low-dimensional representations of ensemble forecast fields using autoencoder-based methods [0.08192907805418585]
大規模な数値シミュレーションでは、下流のアプリケーションでは処理が難しい高次元のグリッドデータを生成することが多い。
本稿では,その確率的特性を尊重しつつ,アンサンブル予測の低次元表現を生成する2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T10:16:47Z) - Lines of Thought in Large Language Models [3.281128493853064]
大規模言語モデルは、付随する埋め込み空間を越えてベクトル化されたテキストを転送することで、次のトーケン予測を達成する。
我々はこれらの「思考の線」のアンサンブルの統計的特性を特徴付けることを目的とする。
このような大きなモデルの膨大な複雑さが、より単純な形式に還元できることは驚くべきことであり、その影響を反映している。
論文 参考訳(メタデータ) (2024-10-02T13:31:06Z) - Bayesian Circular Regression with von Mises Quasi-Processes [57.88921637944379]
本研究では、円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
後部推論のために,高速ギブズサンプリングに寄与するストラトノビッチ様拡張法を導入する。
本研究では,このモデルを用いて風向予測と走行歩行周期のパーセンテージを関節角度の関数として適用する実験を行った。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Semisupervised regression in latent structure networks on unknown
manifolds [7.5722195869569]
ランダムドット積グラフは、それぞれの潜在位置の内積によって与えられる確率を持つ2つのノードの間にエッジを形成する。
本稿では,サンプル外ノードの応答変数を予測するために,多様体学習およびグラフ埋め込み手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T00:41:04Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Neural Jacobian Fields: Learning Intrinsic Mappings of Arbitrary Meshes [38.157373733083894]
本稿では,ニューラルネットワークによる任意のメッシュの断片的線形マッピングを正確に予測するフレームワークを提案する。
このフレームワークは、グローバルな形状記述子に条件付けされた単一点の行列の予測に神経的な側面を還元することに基づいている。
個々のメッシュの固有の勾配領域で操作することで、フレームワークは高度に正確なマッピングを予測できる。
論文 参考訳(メタデータ) (2022-05-05T19:51:13Z) - Joint Estimation of Image Representations and their Lie Invariants [57.3768308075675]
画像は世界の状態とコンテンツの両方をエンコードする。
この情報の自動抽出は、画像表現に固有の高次元かつ絡み合った符号化のために困難である。
本稿では,これらの課題の解決を目的とした2つの理論的アプローチを紹介する。
論文 参考訳(メタデータ) (2020-12-05T00:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。