論文の概要: Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations
- arxiv url: http://arxiv.org/abs/2605.25620v1
- Date: Mon, 25 May 2026 09:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.546228
- Title: Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations
- Title(参考訳): 擬似ラテント:ビジュアルファウンデーションからタスク中心の世界モデルを学ぶ
- Authors: Minghao Fu, Fan Feng, Nicklas Hansen, Biwei Huang,
- Abstract要約: 本稿では,基礎モデル埋め込みをコンパクトでタスクに適した世界表現に変換するためのフレームワークを提案する。
TC-WM は、動的空間としてコンパクトなラテントに高次元の視覚的埋め込みを射影する。
TC-WMは、タスク中心の潜在要因を単純な変換まで特定するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 35.521396983843864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models enable agents to predict future dynamics conditioned on actions, making the choice of latent representation central to planning and control. Such representations are often either learned directly from pixels with limited semantic structure or inherited from frozen visual foundation models with excessive task-irrelevant detail, yielding state spaces that are poorly matched to downstream planning and control. This is especially challenging in reward-free offline settings, where the model must learn from fixed trajectories without reward supervision or online interaction. To address this, we propose TC-WM, a framework for turning foundation-model embeddings into compact, task-sufficient world representations. The key design is to treat the pretrained embedding space as a semantic scaffold rather than as the final state space: TC-WM linearly projects high-dimensional visual embeddings into a compact latent as the dynamic space, aligns a subspace with the agent's physical state via contrastive learning, and reconstructs embeddings to preserve useful visual structure. This combines the generality of foundation features with the controllability of task-centric dynamics. Theoretically, we show that TC-WM suffices to identify the underlying task-centric latent factors up to a simple transformation. Empirically, TC-WM enables test-time planning across diverse environments (e.g., Robomimic and D4RL), achieving better world-modeling quality and more precise control than state-of-the-art approaches.
- Abstract(参考訳): 世界モデルにより、エージェントはアクションに条件付けられた将来のダイナミクスを予測することができ、潜在表現の選択を計画と制御の中心にすることができる。
このような表現はしばしば、限られた意味構造を持つピクセルから直接学習するか、過剰なタスク関連の詳細を持つ凍結した視覚基盤モデルから継承され、下流の計画と制御に不適合な状態空間が得られる。
これは特に、報酬のないオフライン設定では困難であり、モデルが報酬の監督やオンラインインタラクションなしに固定軌道から学ぶ必要がある。
そこで本研究では,基礎モデル埋め込みをコンパクトでタスクに十分な世界表現に変換するためのフレームワークであるTC-WMを提案する。
TC-WMは、動的空間としてコンパクトな潜在空間に高次元の視覚的埋め込みを射影し、対照的な学習を通じてエージェントの物理的状態とサブスペースを整列させ、埋め込みを再構築し、有用な視覚構造を保存する。
これは基礎的特徴の一般化とタスク中心のダイナミクスの制御性を組み合わせたものである。
理論的には、TC-WMは、基礎となるタスク中心の潜在要因を単純な変換まで特定するのに十分であることを示す。
実証的には、TC-WMはさまざまな環境(例えばRobomicやD4RL)にわたるテストタイムプランニングを可能にし、最先端のアプローチよりも優れたワールドモデリング品質とより正確な制御を実現する。
関連論文リスト
- Telecom World Models: Unifying Digital Twins, Foundation Models, and Predictive Planning for 6G [60.29349053952935]
本稿では,テレコムシステムダイナミクスの学習,行動条件,不確実性を考慮したモデリングのためのアーキテクチャであるTWM(Telecom World Model)の概念を紹介する。
本研究では,空間環境予測のためのフィールドワールドモデル,動作条件付きキーパフォーマンス指標(KPI)軌道予測のための制御/力学ワールドモデル,意図翻訳とオーケストレーションのための通信基盤モデルレイヤからなる3層アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-08T09:41:58Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems [38.4555621948915]
Prismatic World Model (PRISM-WM) は複雑なハイブリッド力学を構成可能なプリミティブに分解するように設計されている。
PRISM-WMは系力学におけるシャープモード遷移を正確にモデル化することでロールアウトドリフトを著しく低減する。
論文 参考訳(メタデータ) (2025-12-09T09:40:34Z) - GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment [16.343768407636322]
本稿では,自己指導型ポストトレーニングフレームワークであるReinforcement Learning with World Grounding(RLWG)を紹介する。
このフレームワークをGrndCtrlでインスタンス化する。GrndCtrlは、グループ相対ポリシー最適化(GRPO)に基づく報酬整合型適応手法で、安定な軌道の維持、一貫した幾何、エンボディナビゲーションのための信頼性のあるロールアウトを行う世界モデルを生成する。
論文 参考訳(メタデータ) (2025-12-01T18:03:29Z) - Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation [69.94565127141483]
現在のアプローチでは、ナビゲーション計画とビジュアルワールドモデリングが分離されており、状態-アクションのミスアライメントと適応性の制限につながっている。
一つのマルチモーダル自己回帰バックボーン内に、自我中心の視線と計画を統合する統一されたメモリ拡張世界モデルUniWMを提案する。
我々は,UniWMが航法成功率を最大30%向上し,トラジェクトリエラーを強いベースラインと比較して著しく低減し,未確認のTartanDriveデータセットに印象的なゼロショット一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-10-09T18:18:11Z) - From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models [7.7536110932446265]
我々は、現代の視覚モデルが類似した行動を示すかどうか、そしてこれらがどのような訓練条件で現れるかを検討する。
Masked Autoencoding (MAE) で訓練された視覚変換器 (ViT) はゲシュタルト法則と整合したアクティベーションパターンを示す。
本研究では,局所的なテクスチャを保ちながら,地球規模の空間摂動に対する感受性を評価するためのディストーテッド空間関係テストベンチ(DiSRT)を紹介する。
論文 参考訳(メタデータ) (2025-05-31T21:35:54Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。