論文の概要: Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations
- arxiv url: http://arxiv.org/abs/2603.20327v1
- Date: Fri, 20 Mar 2026 01:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.841841
- Title: Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations
- Title(参考訳): 潜在世界を探る:創発的離散記号と潜在表現における物理構造
- Authors: Liu hung ming,
- Abstract要約: JEPA(Joint Embedding Predictive Architectures)で訓練されたビデオワールドモデルは、ピクセルの再構成ではなく、潜在空間のマスキング領域を予測することによってリッチな表現を得る。
この経路は生成モデルの視覚的検証を除去し、構造的解釈可能性のギャップを生じさせる。
本稿では,AIM(AIM)フレームワークを受動的量子化プローブとして,V-JEPA2連続潜時ベクトルをタスク固有の監督やエンコーダの変更なしに離散シンボルシーケンスに変換する軽量なボキャブラリフリープローブとして提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video world models trained with Joint Embedding Predictive Architectures (JEPA) acquire rich spatiotemporal representations by predicting masked regions in latent space rather than reconstructing pixels. This removes the visual verification pathway of generative models, creating a structural interpretability gap: the encoder has learned physical structure inaccessible in any inspectable form. Existing probing methods either operate in continuous space without a structured intermediate layer, or attach generative components whose parameters confound attribution of behavior to the encoder. We propose the AI Mother Tongue (AIM) framework as a passive quantization probe: a lightweight, vocabulary-free probe that converts V-JEPA 2 continuous latent vectors into discrete symbol sequences without task-specific supervision or modifying the encoder. Because the encoder is kept completely frozen, any symbolic structure in the AIM codebook is attributable entirely to V-JEPA 2 pre-trained representations -- not to the probe. We evaluate through category-contrast experiments on Kinetics-mini along three physical dimensions: grasp angle, object geometry, and motion temporal structure. AIM symbol distributions differ significantly across all three experiments (chi^2 p < 10^{-4}; MI 0.036--0.117 bits, NMI 1.2--3.9% of the 3-bit maximum; JSD up to 0.342; codebook active ratio 62.5%). The experiments reveal that V-JEPA 2 latent space is markedly compact: diverse action categories share a common representational core, with semantic differences encoded as graded distributional variations rather than categorical boundaries. These results establish Stage 1 of a four-stage roadmap toward an action-conditioned symbolic world model, demonstrating that structured symbolic manifolds are discoverable properties of frozen JEPA latent spaces.
- Abstract(参考訳): JEPA(Joint Embedding Predictive Architectures)で訓練されたビデオワールドモデルは、ピクセルの再構成ではなく、潜在空間のマスキング領域を予測することによって、豊かな時空間表現を取得する。
これにより、生成モデルの視覚的検証経路が取り除かれ、構造的解釈可能性ギャップが形成される。
既存のプローブ法は、構造化中間層を使わずに連続的な空間で動作するか、あるいはエンコーダに振る舞いの帰属するパラメータを持つ生成成分を付加する。
本稿では,AIM(AIM)フレームワークを受動的量子化プローブとして,V-JEPA2連続潜時ベクトルをタスク固有の監督やエンコーダの変更なしに離散シンボルシーケンスに変換する軽量なボキャブラリフリープローブとして提案する。
エンコーダは完全に凍結されているため、AIMコードブックのシンボル構造はすべて、プローブではなく、V-JEPA 2事前訓練された表現に帰属する。
本研究では,3次元の運動学-ミニのカテゴリーコントラスト実験により,物体形状,運動時間構造について検討した。
AIMのシンボル分布は3つの実験で大きく異なる(chi^2 p < 10^{-4}、MI 0.036--0.117ビット、NMI 1.2--3.9%、JSD 0.342、コードブックアクティブ比62.5%)。
V-JEPA 2 潜在空間は明らかにコンパクトであり、多様な作用圏は共通の表現のコアを共有し、意味的差異は分類的境界ではなく、次数分布の変分として符号化される。
これらの結果は、アクション条件付き記号的世界モデルに向けた4段階のロードマップのステージ1を確立し、構造化された記号的多様体が凍結されたJEPA潜在空間の発見可能な性質であることを証明した。
関連論文リスト
- SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - Social-JEPA: Emergent Geometric Isomorphism [11.526381612918549]
世界モデルは、リッチな感覚ストリームを圧縮して、将来の観測を期待するコンパクトな潜在コードにします。
我々は、パラメータ共有や調整を行わずに、同じ環境の異なる視点からそのようなモデルを取得する。
訓練後、それらの内部表現は顕著な創発性を示し、2つの潜在空間は近似線型等距離によって関連付けられる。
論文 参考訳(メタデータ) (2026-02-28T07:54:43Z) - BiJEPA: Bi-directional Joint Embedding Predictive Architecture for Symmetric Representation Learning [0.0]
BiJEPAは、データセグメント間のサイクル一貫性予測を強制する。
合成周期信号,カオス的ロレンツ誘導軌道,高次元画像データという3つの異なるモードでBiJEPAを評価した。
論文 参考訳(メタデータ) (2026-02-10T01:16:20Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - Octree Latent Diffusion for Semantic 3D Scene Generation and Completion [2.8992197334880268]
本研究では,屋内と屋外の両方でシーン補完,拡張,生成を行うことのできる単一のフレームワークを開発する。
提案手法は,効率的な2重オクツリーグラフ潜在表現を直接操作する。
単一LiDARスキャンによる高品質な構造,コヒーレントなセマンティクス,ロバストな補完を実証する。
論文 参考訳(メタデータ) (2025-09-20T00:53:13Z) - JADE: Joint-aware Latent Diffusion for 3D Human Generative Modeling [62.77347895550087]
JADEは人体形状の変化を微粒化制御で学習する生成フレームワークである。
私たちの重要な洞察は、人体を骨格構造に分解する共同認識の潜伏表現です。
提案した分解条件下でのコヒーレントで可塑性な人体形状を生成するため,カスケードパイプラインも提案する。
論文 参考訳(メタデータ) (2024-12-29T14:18:35Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。