論文の概要: Learning 3D-Gaussian Simulators from RGB Videos
- arxiv url: http://arxiv.org/abs/2503.24009v2
- Date: Sun, 10 Aug 2025 15:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.359951
- Title: Learning 3D-Gaussian Simulators from RGB Videos
- Title(参考訳): RGBビデオによる3次元ガウスシミュレータの学習
- Authors: Mikel Zhobro, Andreas René Geist, Georg Martius,
- Abstract要約: 3DGSimは学習した3Dシミュレータで、マルチビューのRGBビデオから物理的相互作用を学習する。
3Dシーンの再構成、粒子動力学予測、ビデオ合成をエンドツーエンドのトレーニングフレームワークに統合する。
- 参考スコア(独自算出の注目度): 20.250137125726265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic simulation is critical for applications ranging from robotics to animation. Learned simulators have emerged as a possibility to capture real world physics directly from video data, but very often require privileged information such as depth information, particle tracks and hand-engineered features to maintain spatial and temporal consistency. These strong inductive biases or ground truth 3D information help in domains where data is sparse but limit scalability and generalization in data rich regimes. To overcome the key limitations, we propose 3DGSim, a learned 3D simulator that directly learns physical interactions from multi-view RGB videos. 3DGSim unifies 3D scene reconstruction, particle dynamics prediction and video synthesis into an end-to-end trained framework. It adopts MVSplat to learn a latent particle-based representation of 3D scenes, a Point Transformer for particle dynamics, a Temporal Merging module for consistent temporal aggregation and Gaussian Splatting to produce novel view renderings. By jointly training inverse rendering and dynamics forecasting, 3DGSim embeds the physical properties into point-wise latent features. This enables the model to capture diverse physical behaviors, from rigid to elastic, cloth-like dynamics, and boundary conditions (e.g. fixed cloth corner), along with realistic lighting effects that also generalize to unseen multibody interactions and novel scene edits.
- Abstract(参考訳): ロボット工学からアニメーションまで、応用には現実的なシミュレーションが不可欠である。
学習されたシミュレータは、ビデオデータから直接現実世界の物理をキャプチャする可能性として現れてきたが、空間的・時間的整合性を維持するために、深度情報、粒子トラック、手作業による特徴などの特権情報を必要とすることが多い。
これらの強い帰納バイアスや地上の真理3D情報は、データが疎いが、データリッチな状態におけるスケーラビリティと一般化を制限する領域で役立ちます。
鍵となる制約を克服するため,マルチビューRGBビデオから物理インタラクションを直接学習する学習型3Dシミュレータである3DGSimを提案する。
3DGSimは、3Dシーンの再構築、粒子動力学予測、ビデオ合成をエンドツーエンドのトレーニングフレームワークに統合する。
MVSplatを採用して、3Dシーンの潜在粒子ベース表現、粒子ダイナミクスのためのポイントトランスフォーマー、一貫した時間的アグリゲーションのためのテンポラルマージングモジュール、新しいビューレンダリングを生成するガウススプラッティングを学習する。
逆レンダリングとダイナミックス予測を共同でトレーニングすることで、3DGSimは物理特性をポイントワイドの潜在特徴に組み込む。
これにより、剛性から弾力性、布のようなダイナミックス、境界条件(例えば、固定された布の角)まで多様な物理的挙動を捉えることができ、リアルな照明効果は、見えない多体インタラクションや新しいシーン編集にも応用できる。
関連論文リスト
- DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - PIG: Physically-based Multi-Material Interaction with 3D Gaussians [14.097146027458368]
PIG: 3次元ガウシアンとの物理的に基いた多元的相互作用は、3次元物体のセグメンテーションと高精度に相互作用する物体のシミュレーションを組み合わせた新しいアプローチである。
本手法は,映像品質の面では最先端技術(SOTA)よりも優れるだけでなく,物理的に現実的なシーン生成の分野での新たな方向やパイプラインも開放することを示す。
論文 参考訳(メタデータ) (2025-06-09T11:25:21Z) - Text-to-3D Gaussian Splatting with Physics-Grounded Motion Generation [47.6666060652434]
正確な外観と幾何学的構造を持つ3次元モデルを生成する革新的なフレームワークを提案する。
テキスト・ツー・3D生成と物理基底運動合成を統合することにより,本フレームワークはフォトリアリスティックな3Dオブジェクトを描画する。
論文 参考訳(メタデータ) (2024-12-07T06:48:16Z) - Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - GASP: Gaussian Splatting for Physic-Based Simulations [0.42881773214459123]
既存の物理モデルでは、三角形や四面体メッシュ、マーチングキューブ、ケージメッシュなどのメッシュ機構が追加されている。
我々は3次元ガウス成分と整合するように、基底のニュートン力学を修正した。
結果の解は、ブラックボックスとして扱われるあらゆる物理エンジンに統合できる。
論文 参考訳(メタデータ) (2024-09-09T17:28:57Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Learning 3D Particle-based Simulators from RGB-D Videos [15.683877597215494]
本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
論文 参考訳(メタデータ) (2023-12-08T20:45:34Z) - Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis [58.5779956899918]
動的シーンビュー合成と6自由度(6-DOF)追跡のタスクを同時に処理する手法を提案する。
我々は、シーンを3Dガウスアンのコレクションとしてモデル化する最近の研究に触発された、分析バイシンセサイザーの枠組みに従う。
我々は,1人称視点合成,動的合成シーン合成,4次元映像編集など,我々の表現によって実現された多数のダウンストリームアプリケーションを紹介した。
論文 参考訳(メタデータ) (2023-08-18T17:59:21Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - Image GANs meet Differentiable Rendering for Inverse Graphics and
Interpretable 3D Neural Rendering [101.56891506498755]
異なるレンダリングによって、ニューラルネットワークをトレーニングして"逆グラフィックス"タスクを実行する方法が舗装された。
提案手法は,既存のデータセットでトレーニングした最先端の逆グラフネットワークを著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-10-18T22:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。