論文の概要: Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision
- arxiv url: http://arxiv.org/abs/2605.28865v1
- Date: Fri, 22 May 2026 03:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.934423
- Title: Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision
- Title(参考訳): 言語的スーパービジョンを伴わない物理的相互作用による世界モデルの創発的意味表現
- Authors: Jiayi Fang,
- Abstract要約: 我々は、ランダムなエンボディド探索に基づいて、VAEベースの世界モデルを訓練する。
その潜在空間は、物理幾何学を反映する空間構造意味を発達させる。
これらの知見は,世界モデル表現の組織原理として物理世界幾何学を確立した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What does a world model learn from physical exploration, without any linguistic supervision? We argue the answer is organized by a single principle: the geometric structure of the physical world. Training a VAE-based world model on random embodied exploration, we find that its latent space develops spatial semantic structure that mirrors physical geometry -- direction accuracy 0.677+-0.029 versus 0.547 for a randomly initialized encoder, and position RSA 0.192+-0.047 versus 0.029 for random encoders (6.6x improvement), showing that training induces genuine structural organization beyond CNN inductive bias. Across 20 temporal checkpoints, prediction performance and semantic alignment co-improve (Spearman r=-0.61, p=0.004), consistent with the shared-driver account. We confirm this through a double knockout: standard KL regularization (beta=0.1) forces the encoder away from geometric structure, and both prediction performance and semantic alignment collapse simultaneously to near-chance by step 50,000 -- exactly as the shared-driver account predicts. Reducing beta to 0.001 restores geometric access and recovers both capabilities together. These findings establish physical world geometry as the organizing principle of world model representations, with direct implications for the design of semantically grounded embodied agents.
- Abstract(参考訳): 言語的な監督なしに、物理探査から世界モデルは何を学べるか?
この答えは、物理世界の幾何学的構造という、一つの原理によって構成されていると我々は主張する。
ランダムエンコーダの方向精度0.677+-0.029対0.547対ランダム初期化エンコーダ位置RSA 0.192+-0.047対0.029対ランダムエンコーダ(6.6倍改善)は、トレーニングがCNN誘導バイアスを超えて真の構造組織を誘導することを示している。
20の時間的チェックポイント、予測性能、意味的アライメント(Spearman r=-0.61, p=0.004)が共有ドライバアカウントと一致している。
標準的なKL正規化(beta=0.1)はエンコーダを幾何学的構造から遠ざけ、予測性能とセマンティックアライメントの両立をステップ50,000の精度で実現します。
ベータを0.001にすると、幾何学的アクセスが回復し、両方の機能を一緒に回復する。
これらの知見は、物理世界幾何学を世界モデル表現の組織原理として確立し、意味論的基盤を持つエンボディードエージェントの設計に直接的な意味を持つ。
関連論文リスト
- Is Your Driving World Model an All-Around Player? [107.28582946012818]
We introduced WorldLens, a unified benchmark that measure world-model fidelity across the full spectrum。
6つの代表モデルについて評価したところ、既存のアプローチがすべての軸にわたって支配的でないことが判明した。
アルゴリズムのメトリクスを人間の知覚でブリッジするために、26,808エントリの人間注釈付き嗜好データセットであるWorldLens-26Kをコントリビュートする。
論文 参考訳(メタデータ) (2026-05-11T17:05:49Z) - HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation [83.31948299340782]
HERMES++は、単一のフレームワーク内で3Dシーン理解と将来の幾何学的予測を統合する統合駆動世界モデルである。
Hermes++は、将来のクラウド予測と3Dシーン理解タスクの両方において、優れたパフォーマンスと優れたスペシャリストのアプローチを実現している。
論文 参考訳(メタデータ) (2026-04-30T17:59:58Z) - ATLAS: Constitution-Conditioned Latent Geometry and Redistribution Across Language Models and Neural Perturbation Data [0.0]
構成条件付きポストトレーニングは、モデルが学習した表現幾何学の構造化摂動として分析することができる。
グラフ, モデル, 基板間の構成による隠れ状態構造をトレースする, 幾何学第一のプログラムATLASを紹介する。
論文 参考訳(メタデータ) (2026-04-19T23:26:02Z) - AI Mental Models: Learned Intuition and Deliberation in a Bounded Neural Architecture [0.0]
本稿では,有界なニューラルアーキテクチャが,シロジカル推論ベンチマーク上での直観と熟考の間に有意義な分断を生じさせるかどうかを問う。
実験1では、5倍のクロスバリデーションの下で、完全な9方向の人間の応答分布を予測するための直接神経ベースラインを評価した。
実験2では、計算的精神モデル理論に動機づけられた、直観と熟考の別々の経路を持つ有界なデュアルパスアーキテクチャを導入する。
論文 参考訳(メタデータ) (2026-03-23T20:44:38Z) - Thinking in Different Spaces: Domain-Specific Latent Geometry Survives Cross-Architecture Translation [0.7162422068114824]
独立に訓練された言語モデルが幾何学的に互換性のある潜在表現に収束するかどうかを検討する。
我々は,大規模教師モデルの活性化ベクトルをより小さな学生モデルの座標系にマッピングする線形投影行列を学習する。
幾何アライメントの品質と行動補正率のほぼゼロの相関を報告する。
論文 参考訳(メタデータ) (2026-03-20T18:26:23Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement [0.0]
視覚言語モデルは、それらのテキスト経路が表現できないような幾何学を符号化する。
ロラ微調整(r=16, 2,000枚)は、このギャップを6.5度に縮める。
これらの知見は、単一の凍結したバックボーンがマルチタスク幾何学的センサーとして機能することを可能にした。
論文 参考訳(メタデータ) (2026-03-06T16:48:27Z) - Geometric Priors for Generalizable World Models via Vector Symbolic Architecture [9.216794073296679]
人工知能の鍵となる課題は、ニューラルネットワークが世界の基盤となるダイナミクスを捉える表現を学ぶ方法を理解することである。
本稿では,ベクトル記号アーキテクチャ(VSA)の原理に基づく一般化可能な世界モデルを用いて,これらの問題を解決する。
潜在群構造を持つためのトレーニングは、一般化可能、データ効率、解釈可能な世界モデルをもたらすかを示す。
論文 参考訳(メタデータ) (2026-02-25T00:41:42Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。