論文の概要: World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings
- arxiv url: http://arxiv.org/abs/2603.04317v1
- Date: Wed, 04 Mar 2026 17:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.428525
- Title: World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings
- Title(参考訳): 世界モデルのない世界特性:静的な単語埋め込みにおける共起統計から空間的・時間的構造を復元する
- Authors: Elan Barenholtz,
- Abstract要約: 都市座標では0.71-0.87、歴史的生年では0.48-0.52である。
これらの結果から, 通常の単語共起は, しばしば想定されるよりも, 空間的, 時間的, 環境的構造を豊かに保っていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work interprets the linear recoverability of geographic and temporal variables from large language model (LLM) hidden states as evidence for world-like internal representations. We test a simpler possibility: that much of the relevant structure is already latent in text itself. Applying the same class of ridge regression probes to static co-occurrence-based embeddings (GloVe and Word2Vec), we find substantial recoverable geographic signal and weaker but reliable temporal signal, with held-out R^2 values of 0.71-0.87 for city coordinates and 0.48-0.52 for historical birth years. Semantic-neighbor analyses and targeted subspace ablations show that these signals depend strongly on interpretable lexical gradients, especially country names and climate-related vocabulary. These findings suggest that ordinary word co-occurrence preserves richer spatial, temporal, and environmental structure than is often assumed, revealing a remarkable and underappreciated capacity of simple static embeddings to preserve world-shaped structure from text alone. Linear probe recoverability alone therefore does not establish a representational move beyond text.
- Abstract(参考訳): 最近の研究は、大言語モデル(LLM)の隠れ状態から地理的変数と時間変数の線形復元可能性について、世界に似た内部表現の証拠として解釈している。
関連した構造の多くが、すでにテキスト自体に潜んでいる、という単純な可能性をテストする。
同じ種類のリッジ回帰プローブを静的共起型埋め込み (GloVe と Word2Vec) に適用すると, 都市座標では0.71-0.87, 歴史的生年では0.48-0.52と, かなり回復可能な地理的信号とより弱いが信頼性のある時間信号が得られる。
セマンティック・ニーバー分析とターゲティング・サブスペース・アブレーションは、これらのシグナルが解釈可能な語彙勾配、特に国名と気候に関する語彙に強く依存していることを示している。
これらの結果から, 通常の単語共起は空間, 時間, 環境構造をより豊富に保存し, テキストのみから世界形構造を保ちつつ, 単純な静的な埋め込みの顕著かつ未熟な能力を示すことが示唆された。
したがって、線形プローブの復元可能性だけでは、テキストを超えて表現的な動きを確立しない。
関連論文リスト
- Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change [52.46888249268445]
長期の環境モニタリングには、数ヶ月または数年ごとに分割された繰り返しサイト訪問で3Dモデルを再構築し調整する機能が必要である。
既存のアプローチは、独立して再構築されたセッションのポストホックアライメントに依存している。
我々は,共同SfM再建において,クロスセッション対応を直接実施することを提案する。
論文 参考訳(メタデータ) (2026-02-24T06:12:51Z) - The Statistical Signature of LLMs [1.3135750017147134]
統計的正則性に関する単純なモデルに依存しない尺度は、生成規則を表面テキストと直接区別することを示す。
設定全体にわたって、圧縮は確率的生成の永続的な構造的シグネチャを明らかにする。
本研究は, 生成システムがいかにテキスト生産を再構築するかを定量化するための, シンプルで堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-20T11:33:37Z) - Symmetry in language statistics shapes the geometry of model representations [8.371687575566714]
言語統計学は翻訳対称性を示す。
後者は,高次元単語埋め込みモデルにおいて,上記の幾何学的構造を支配下に置くことを証明する。
このロバスト性は、共起統計値が基礎となる連続潜伏変数によって集合的に制御されている場合に自然に現れることを示す。
論文 参考訳(メタデータ) (2026-02-16T18:59:55Z) - Hierarchical Geometry of Cognitive States in Transformer Embedding Spaces [0.0]
文の埋め込みは、人間の解釈可能な認知的属性や心理的属性と整合した、段階的、階層的な構造をコードするかどうかを検討する。
連続的な順序エネルギースコアと離散層ラベルを付加した480の自然言語文のデータセットを構築した。
モデル全体では、連続スコアと階層ラベルの両方が確実にデオード可能であり、浅い非線形プローブが一貫した性能向上をもたらす。
論文 参考訳(メタデータ) (2025-12-23T03:37:34Z) - One Swallow Does Not Make a Summer: Understanding Semantic Structures in Embedding Spaces [17.173074024116477]
埋め込み空間は現代のAIの基本であり、生データをリッチなセマンティックな関係を符号化する高次元ベクトルに変換する。
埋め込み空間内の局所的な意味的近傍をキャプチャする幾何学保存・文脈認識表現であるSemantic Field Subspace (SFS)を導入する。
また,セマンティックシフト(Semantic Shift)と呼ばれる新しい計量を用いて階層的意味構造を明らかにする,教師なし・モダリティに依存しないアルゴリズムであるSAFARIを提案する。
論文 参考訳(メタデータ) (2025-11-30T11:48:00Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Priors in Time: Missing Inductive Biases for Language Model Interpretability [58.07412640266836]
スパースオートエンコーダは、時間とともに概念の独立を前提としており、定常性を暗示している。
本稿では,時間的帰納バイアスを持つ新たな解釈可能性目標である時間的特徴分析を導入し,その表現を2つの部分に分解する。
私たちの結果は、堅牢な解釈可能性ツールの設計において、データにマッチする帰納的バイアスの必要性を浮き彫りにしています。
論文 参考訳(メタデータ) (2025-11-03T18:43:48Z) - S$^2$Transformer: Scalable Structured Transformers for Global Station Weather Forecasting [67.93713728260646]
既存の時系列予測手法は、大規模なグローバルステーション予測を行う際に、空間的相関を無視または一方向的にモデル化することが多い。
これは、予測性能を制限する地球規模の気象システムの観測の根底にある性質と矛盾する。
本稿では,構造的空間的注意を新たに提案する。
空間グラフを一連のサブグラフに分割し、サブグラフ内の注意をインスタンス化し、各サブグラフ内の局所的な空間相関を学習する。
ノードをサブグラフ間のメッセージパッシングのためのサブグラフ表現に集約する。
論文 参考訳(メタデータ) (2025-09-10T05:33:28Z) - Dense SAE Latents Are Features, Not Bugs [86.50389855919292]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文 参考訳(メタデータ) (2025-06-18T17:59:35Z) - Typhoon Intensity Prediction with Vision Transformer [51.84456610977905]
台風強度を正確に予測するために「台風強度変換器(Tint)」を導入する。
Tintは、層ごとにグローバルな受容野を持つ自己認識機構を使用する。
公開されている台風ベンチマークの実験は、Tintの有効性を検証する。
論文 参考訳(メタデータ) (2023-11-28T03:11:33Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - $\text{H}^2\text{TNE}$: Temporal Heterogeneous Information Network Embedding in Hyperbolic Spaces [16.31067633778912]
時間的HINに対する双曲的ヘテロジニアス時間ネットワーク埋め込みモデルを提案する。
具体的には、時間的かつ不均一に2重拘束されたランダムウォーク戦略を利用して、構造的および意味的な情報をキャプチャする。
実験の結果,本手法はSOTAモデルと比較して時間的リンク予測とノード分類に優れていた。
論文 参考訳(メタデータ) (2023-04-14T07:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。