論文の概要: Learning Action-Conditional and Object-Centric Gaussian Splatting World Models for Rigid Objects
- arxiv url: http://arxiv.org/abs/2606.01950v1
- Date: Mon, 01 Jun 2026 09:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.686079
- Title: Learning Action-Conditional and Object-Centric Gaussian Splatting World Models for Rigid Objects
- Title(参考訳): 剛体物体に対するアクション・コンディショナル・オブジェクト中心ガウス・スプレイティング世界モデル学習
- Authors: Jens U. Kreber, Lukas Mack, Joerg Stueckler,
- Abstract要約: 我々は3次元の剛体物体の動作条件力学を学習する新しいモデルを開発した。
シミュレーションにおける非包括的操作のためのモデル予測制御におけるモデルの評価を行った。
- 参考スコア(独自算出の注目度): 4.870609209341298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models enable intelligent agents to predict the consequences of their actions on the environment. In this paper, we propose Multi Rigid Object Gaussian World Model (MRO-GWM), a novel model that learns action-conditional dynamics of rigid objects in 3D. By representing the scene by object-centric Gaussians, we can represent arbitrary object shapes and multi-object scenes. We develop a novel spatio-temporal transformer architecture that predicts future rigid body motion from a history of object Gaussians and future actions. Objects are represented by their Gaussians in a canonical frame, which allows for describing object motion as rigid body transformation. Our model is trained on reconstructions from multiple viewpoints, which requires the model to handle partial observations of objects due to occlusions. We analyze prediction performance of our approach on synthetic datasets composed of typical household objects with multi-object dynamics and interactions by a robot end effector. We also evaluate our model in model-predictive control for non-prehensile manipulation in simulation.
- Abstract(参考訳): 世界モデルは、知的エージェントが環境に対する行動の結果を予測することを可能にする。
本稿では,剛体物体の動作条件ダイナミクスを3次元で学習する新モデルであるMRO-GWMを提案する。
オブジェクト中心ガウスでシーンを表現することで、任意のオブジェクトの形状や複数オブジェクトのシーンを表現できる。
対象ガウスの歴史と将来の行動から将来の剛体運動を予測する新しい時空間変圧器アーキテクチャを開発した。
物体は標準フレームでガウスによって表現され、物体の動きを剛体変換として記述することができる。
本モデルでは,複数視点からの再構成を訓練し,咬合による物体の部分的な観察をモデルに求める。
ロボットエンドエフェクタによる多目的動特性と相互作用を持つ一般的な家庭用オブジェクトからなる合成データセットに対するアプローチの予測性能を解析した。
また,シミュレーションにおける非包括的操作のためのモデル予測制御におけるモデルの評価を行った。
関連論文リスト
- NeuROK: Generative 4D Neural Object Kinematics [35.76495786203886]
我々は、オブジェクト中心の物理システムに対して、データ駆動キネマティックな状態パラメータ化を学習する。
大規模4Dデータセットを用いてトランスフォーマーベースのエンコーダデコーダモデルを学習する。
論文 参考訳(メタデータ) (2026-05-28T17:59:53Z) - Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - ObjectForesight: Predicting Future 3D Object Trajectories from Human Videos [48.24897274501108]
本研究では,3次元オブジェクト中心のダイナミックスモデルを導入し,短い自我中心の映像シーケンスから剛体物体の将来の6-DoFのポーズと軌跡を予測する。
ピクセルまたは潜在空間で動作する従来の世界やダイナミクスモデルとは異なり、ObjectForesightはオブジェクトレベルで3Dで明示的に世界を表現する。
我々は、ObjectForesightが、未確認のオブジェクトやシーンへの精度、幾何整合性、一般化において、大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-01-08T18:58:08Z) - Particle-Grid Neural Dynamics for Learning Deformable Object Models from RGB-D Videos [28.473117601626956]
我々は,物体粒子と空間格子をハイブリッド表現で結合したニューラル・ダイナミクス・フレームワークを開発した。
我々は,ロボットと物体の相互作用の疎視的RGB-D記録から,多様な物体のダイナミックスを学習できることを実証した。
提案手法は,特にカメラビューに制限のあるシナリオにおいて,最先端の学習ベースシミュレータや物理ベースのシミュレータよりも優れている。
論文 参考訳(メタデータ) (2025-06-18T17:59:38Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。