論文の概要: Particle-Grid Neural Dynamics for Learning Deformable Object Models from RGB-D Videos
- arxiv url: http://arxiv.org/abs/2506.15680v1
- Date: Wed, 18 Jun 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.781879
- Title: Particle-Grid Neural Dynamics for Learning Deformable Object Models from RGB-D Videos
- Title(参考訳): RGB-D映像からの変形性物体モデル学習のための粒子グリッドニューラルダイナミクス
- Authors: Kaifeng Zhang, Baoyu Li, Kris Hauser, Yunzhu Li,
- Abstract要約: 我々は,物体粒子と空間格子をハイブリッド表現で結合したニューラル・ダイナミクス・フレームワークを開発した。
我々は,ロボットと物体の相互作用の疎視的RGB-D記録から,多様な物体のダイナミックスを学習できることを実証した。
提案手法は,特にカメラビューに制限のあるシナリオにおいて,最先端の学習ベースシミュレータや物理ベースのシミュレータよりも優れている。
- 参考スコア(独自算出の注目度): 30.367498271886866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling the dynamics of deformable objects is challenging due to their diverse physical properties and the difficulty of estimating states from limited visual information. We address these challenges with a neural dynamics framework that combines object particles and spatial grids in a hybrid representation. Our particle-grid model captures global shape and motion information while predicting dense particle movements, enabling the modeling of objects with varied shapes and materials. Particles represent object shapes, while the spatial grid discretizes the 3D space to ensure spatial continuity and enhance learning efficiency. Coupled with Gaussian Splattings for visual rendering, our framework achieves a fully learning-based digital twin of deformable objects and generates 3D action-conditioned videos. Through experiments, we demonstrate that our model learns the dynamics of diverse objects -- such as ropes, cloths, stuffed animals, and paper bags -- from sparse-view RGB-D recordings of robot-object interactions, while also generalizing at the category level to unseen instances. Our approach outperforms state-of-the-art learning-based and physics-based simulators, particularly in scenarios with limited camera views. Furthermore, we showcase the utility of our learned models in model-based planning, enabling goal-conditioned object manipulation across a range of tasks. The project page is available at https://kywind.github.io/pgnd .
- Abstract(参考訳): 変形可能な物体の力学をモデル化することは、様々な物理的性質と限られた視覚情報から状態を予測することの難しさにより困難である。
これらの課題に、物体粒子と空間格子をハイブリッド表現で結合したニューラルネットワークフレームワークを用いて対処する。
粒子グリッドモデルでは、粒子の動きを予測しながら、大域的な形状や動きの情報をキャプチャし、形状や素材の異なる物体のモデリングを可能にする。
粒子は物体の形状を表し、空間格子は空間連続性を確保し学習効率を高めるために3次元空間を離散化する。
視覚的レンダリングのためのガウススプラッティングと組み合わせて、変形可能なオブジェクトの完全な学習ベースのデジタルツインを実現し、3Dアクションコンディショニングビデオを生成する。
実験により,ロボットと物体の相互作用を疎視したRGB-D記録から,ロープ,布,ぬいぐるみ,紙袋などの多様な物体の力学を学習し,カテゴリレベルでの一般化を図った。
提案手法は,特にカメラビューに制限のあるシナリオにおいて,最先端の学習ベースシミュレータや物理ベースのシミュレータよりも優れている。
さらに、学習したモデルの有用性をモデルベース計画で示し、目標条件付きオブジェクト操作を様々なタスクにわたって可能にした。
プロジェクトのページはhttps://kywind.github.io/pgnd で公開されている。
関連論文リスト
- PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - 3D-OES: Viewpoint-Invariant Object-Factorized Environment Simulators [24.181604511269096]
本稿では、3次元ニューラルシーン表現空間におけるオブジェクトとエージェントの相互作用によるシーン変化を予測できる動作条件動的モデルを提案する。
この空間では、オブジェクトは互いに干渉せず、その外観は時間と視点にわたって持続する。
本モデルでは,対話対象の個数や外観,カメラ視点の多様さにまたがる予測をよく一般化することを示す。
論文 参考訳(メタデータ) (2020-11-12T16:15:52Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。