論文の概要: Dyn-O: Building Structured World Models with Object-Centric Representations
- arxiv url: http://arxiv.org/abs/2507.03298v1
- Date: Fri, 04 Jul 2025 05:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.664333
- Title: Dyn-O: Building Structured World Models with Object-Centric Representations
- Title(参考訳): Dyn-O:オブジェクト中心表現を用いた構造化世界モデルの構築
- Authors: Zizhao Wang, Kaixin Wang, Li Zhao, Peter Stone, Jiang Bian,
- Abstract要約: オブジェクト中心の表現に基づいて構築された拡張構造化世界モデルであるDyn-Oを紹介する。
オブジェクト中心表現における以前の研究と比較すると、Dyn-Oは学習表現とモデリングダイナミクスの両方において改善されている。
提案手法は,画素観測からオブジェクト中心の世界モデルを直接学習し,DreamerV3のロールアウト予測精度を向上する。
- 参考スコア(独自算出の注目度): 42.65409148846005
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: World models aim to capture the dynamics of the environment, enabling agents to predict and plan for future states. In most scenarios of interest, the dynamics are highly centered on interactions among objects within the environment. This motivates the development of world models that operate on object-centric rather than monolithic representations, with the goal of more effectively capturing environment dynamics and enhancing compositional generalization. However, the development of object-centric world models has largely been explored in environments with limited visual complexity (such as basic geometries). It remains underexplored whether such models can generalize to more complex settings with diverse textures and cluttered scenes. In this paper, we fill this gap by introducing Dyn-O, an enhanced structured world model built upon object-centric representations. Compared to prior work in object-centric representations, Dyn-O improves in both learning representations and modeling dynamics. On the challenging Procgen games, we find that our method can learn object-centric world models directly from pixel observations, outperforming DreamerV3 in rollout prediction accuracy. Furthermore, by decoupling object-centric features into dynamics-agnostic and dynamics-aware components, we enable finer-grained manipulation of these features and generate more diverse imagined trajectories.
- Abstract(参考訳): 世界モデルは環境のダイナミクスを捉え、エージェントが将来の状態を予測することを可能にします。
ほとんどのシナリオにおいて、ダイナミクスは環境内のオブジェクト間の相互作用に重点を置いている。
これは、モノリシックな表現ではなく、オブジェクト中心で動く世界モデルの開発を動機付け、環境力学をより効果的に捉え、構成の一般化を強化することを目的としている。
しかし、オブジェクト中心の世界モデルの開発は、視覚的複雑さが限られた環境(基本的な測地など)で主に研究されている。
このようなモデルが、多様なテクスチャと散らかったシーンでより複雑な設定に一般化できるかどうかについては、まだ解明されていない。
本稿では,オブジェクト中心表現上に構築された拡張構造化世界モデルであるDyn-Oを導入することで,このギャップを埋める。
オブジェクト中心表現における以前の研究と比較すると、Dyn-Oは学習表現とモデリングダイナミクスの両方において改善されている。
難易度の高いProcgenゲームでは,画素観察からオブジェクト中心の世界モデルを直接学習し,DreamerV3のロールアウト予測精度より優れていた。
さらに、オブジェクト中心の機能を動的に非依存かつ動的に認識するコンポーネントに分離することにより、これらの特徴のよりきめ細かい操作を可能にし、より多様な仮想軌道を生成する。
関連論文リスト
- Particle-Grid Neural Dynamics for Learning Deformable Object Models from RGB-D Videos [30.367498271886866]
我々は,物体粒子と空間格子をハイブリッド表現で結合したニューラル・ダイナミクス・フレームワークを開発した。
我々は,ロボットと物体の相互作用の疎視的RGB-D記録から,多様な物体のダイナミックスを学習できることを実証した。
提案手法は,特にカメラビューに制限のあるシナリオにおいて,最先端の学習ベースシミュレータや物理ベースのシミュレータよりも優れている。
論文 参考訳(メタデータ) (2025-06-18T17:59:38Z) - SlotPi: Physics-informed Object-centric Reasoning Models [37.32107835829927]
物理インフォームドオブジェクト中心推論モデルであるSlotPiを紹介する。
我々の実験は、ベンチマークや流体データセット上での予測や視覚質問応答(VQA)といったタスクにおけるモデルの強みを強調した。
我々は、オブジェクトの相互作用、流体力学、流体オブジェクトの相互作用を含む実世界のデータセットを作成し、モデルの性能を検証した。
論文 参考訳(メタデータ) (2025-06-12T14:53:36Z) - Aether: Geometric-Aware Unified World Modeling [49.33579903601599]
Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文 参考訳(メタデータ) (2025-03-24T17:59:51Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Unsupervised Dynamics Prediction with Object-Centric Kinematics [22.119612406160073]
本稿では,オブジェクト中心表現を利用した動的予測フレームワークであるOcK(Object-Centric Kinematics)を提案する。
OCKは、物体の位置、速度、加速度の低レベルな構造化状態で構成されている。
本モデルは,多種多様なオブジェクト属性と動的動きを特徴とする複雑なシーンにおけるオブジェクトと背景の扱いにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-29T04:47:23Z) - Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。
本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。
シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。