論文の概要: NeuROK: Generative 4D Neural Object Kinematics
- arxiv url: http://arxiv.org/abs/2605.30347v1
- Date: Thu, 28 May 2026 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.760003
- Title: NeuROK: Generative 4D Neural Object Kinematics
- Title(参考訳): NeuROK: 生成する4Dニューラルオブジェクトキネマティクス
- Authors: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu,
- Abstract要約: 我々は、オブジェクト中心の物理システムに対して、データ駆動キネマティックな状態パラメータ化を学習する。
大規模4Dデータセットを用いてトランスフォーマーベースのエンコーダデコーダモデルを学習する。
- 参考スコア(独自算出の注目度): 35.76495786203886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven approaches have revolutionized 3D vision, enabling transformers to effectively reconstruct and generate static 3D objects. However, generating simulative 4D dynamics -- realistic temporal deformations of static objects under various physical conditions -- remains challenging and often ad hoc, despite its importance in building comprehensive 3D world models. Most existing methods assume a predefined physical model and use system identification to estimate parameters, restricting these methods to specific categories and small-scale datasets. We propose that these restrictions can be overcome by learning a data-driven kinematic state parameterization for object-centric physical systems. Specifically, we learn both a latent space representing all possible states of the object and a decoder that maps any sampled latent to a plausibly deformed shape of the object. We refer to this parameterization as Neural Object Kinematics (NeuROK), and learn a transformer-based encoder-decoder model on a curated large-scale 4D dataset. This formulation and the learned model significantly simplify the generation of simulative dynamics since we only need to consider the dynamics within a low-dimensional latent space from the Lagrangian mechanics' perspective in classical physics. We demonstrate the effectiveness and generality of this neural simulation framework across diverse dynamic object types, showing clear advantages over prior works. Project page: https://chen-geng.com/neurok
- Abstract(参考訳): データ駆動型アプローチは、3Dビジョンに革命をもたらし、トランスフォーマーは静的な3Dオブジェクトを効果的に再構築し、生成することができる。
しかし、様々な物理的条件下での静的物体の現実的な時間的変形であるシミュレーション4Dダイナミクスの生成は、包括的3D世界モデルの構築において重要であるにもかかわらず、困難であり、しばしばアドホックである。
既存の手法の多くは、事前に定義された物理モデルを想定し、パラメータを推定するためにシステム識別を使用し、これらの手法を特定のカテゴリや小規模データセットに制限する。
本研究では,オブジェクト中心の物理システムに対して,データ駆動の運動状態パラメータ化を学習することで,これらの制約を克服できることを示す。
具体的には、対象のすべての可能な状態を表す潜時空間と、任意のサンプリングされた潜時空間を、対象の少なくとも変形した形状にマッピングする復号器の両方を学習する。
このパラメータ化をニューラルオブジェクトキネマティクス(NeuROK)と呼び、大規模4Dデータセット上でトランスフォーマーベースのエンコーダデコーダモデルを学ぶ。
この定式化と学習モデルは、古典物理学におけるラグランジュ力学の観点から、低次元の潜在空間内の力学を考えるだけで、シミュレーティブ・ダイナミクスの生成を著しく単純化する。
様々な動的オブジェクトタイプにまたがるこのニューラルネットワーク・シミュレーション・フレームワークの有効性と汎用性を実証し、先行研究よりも明らかな優位性を示す。
プロジェクトページ: https://chen-geng.com/neurok
関連論文リスト
- TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos [7.616167860385134]
複雑な動的3次元シーンの運動物理をモデル化する新しいフレームワークTRACEを提案する。
各3次元点を空間の大きさと向きの剛性粒子として定式化することにより、各粒子の変換回転力学系を直接学習する。
論文 参考訳(メタデータ) (2025-08-13T13:43:01Z) - Particle-Grid Neural Dynamics for Learning Deformable Object Models from RGB-D Videos [28.473117601626956]
我々は,物体粒子と空間格子をハイブリッド表現で結合したニューラル・ダイナミクス・フレームワークを開発した。
我々は,ロボットと物体の相互作用の疎視的RGB-D記録から,多様な物体のダイナミックスを学習できることを実証した。
提案手法は,特にカメラビューに制限のあるシナリオにおいて,最先端の学習ベースシミュレータや物理ベースのシミュレータよりも優れている。
論文 参考訳(メタデータ) (2025-06-18T17:59:38Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting [32.846428862045634]
Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。
人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。
また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文 参考訳(メタデータ) (2024-11-19T12:52:21Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。
本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文 参考訳(メタデータ) (2023-04-17T13:49:04Z) - {\phi}-SfT: Shape-from-Template with a Physics-Based Deformation Model [69.27632025495512]
Shape-from-Template (SfT) 法では、単一の単眼RGBカメラから3次元表面の変形を推定する。
本稿では,物理シミュレーションによる2次元観察を解説する新しいSfT手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T17:59:57Z) - Predicting the Physical Dynamics of Unseen 3D Objects [65.49291702488436]
インパルス力を受ける平面上での3次元物体の動的挙動の予測に焦点をあてる。
我々の手法は、訓練中に目に見えない物体の形状や初期条件に一般化することができる。
我々のモデルは物理エンジンと実世界の両方のデータによるトレーニングをサポートすることができる。
論文 参考訳(メタデータ) (2020-01-16T06:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。