論文の概要: Learning 3D-Gaussian Simulators from RGB Videos
- arxiv url: http://arxiv.org/abs/2503.24009v1
- Date: Mon, 31 Mar 2025 12:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:27.618275
- Title: Learning 3D-Gaussian Simulators from RGB Videos
- Title(参考訳): RGBビデオによる3次元ガウスシミュレータの学習
- Authors: Mikel Zhobro, Andreas René Geist, Georg Martius,
- Abstract要約: 3DGSimは、多視点RGBビデオからオブジェクトダイナミクスをエンドツーエンドに学習する3D物理シミュレータである。
画像を3Dガウス粒子表現にエンコードし、トランスフォーマーを介してダイナミクスを伝播し、3Dガウススプレイティングを用いてフレームをレンダリングする。
- 参考スコア(独自算出の注目度): 20.250137125726265
- License:
- Abstract: Learning physics simulations from video data requires maintaining spatial and temporal consistency, a challenge often addressed with strong inductive biases or ground-truth 3D information -- limiting scalability and generalization. We introduce 3DGSim, a 3D physics simulator that learns object dynamics end-to-end from multi-view RGB videos. It encodes images into a 3D Gaussian particle representation, propagates dynamics via a transformer, and renders frames using 3D Gaussian splatting. By jointly training inverse rendering with a dynamics transformer using a temporal encoding and merging layer, 3DGSimembeds physical properties into point-wise latent vectors without enforcing explicit connectivity constraints. This enables the model to capture diverse physical behaviors, from rigid to elastic and cloth-like interactions, along with realistic lighting effects that also generalize to unseen multi-body interactions and novel scene edits.
- Abstract(参考訳): ビデオデータから物理シミュレーションを学ぶには、空間的および時間的一貫性を維持する必要がある。
マルチビューRGBビデオからオブジェクトダイナミクスをエンドツーエンドに学習する3D物理シミュレータである3DGSimを紹介する。
画像を3Dガウス粒子表現にエンコードし、トランスフォーマーを介してダイナミクスを伝播し、3Dガウススプレイティングを用いてフレームをレンダリングする。
3DGSimembeds physical properties into point-wise latent vectors without enforceed explicit connection constraints。
これによってモデルは、剛性から弾力性、布のような相互作用まで多様な物理的挙動を捉えることができ、リアルな照明効果は、見えない多体インタラクションや新しいシーン編集にも応用できる。
関連論文リスト
- Text-to-3D Gaussian Splatting with Physics-Grounded Motion Generation [47.6666060652434]
正確な外観と幾何学的構造を持つ3次元モデルを生成する革新的なフレームワークを提案する。
テキスト・ツー・3D生成と物理基底運動合成を統合することにより,本フレームワークはフォトリアリスティックな3Dオブジェクトを描画する。
論文 参考訳(メタデータ) (2024-12-07T06:48:16Z) - Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling [10.247075501610492]
マルチビューRGBビデオからオブジェクトダイナミクスを直接学習するフレームワークを導入する。
グラフニューラルネットワークを用いて粒子ベース力学モデルを訓練する。
本手法は,初期設定の異なる物体の動きやロボットの動作を予測できる。
論文 参考訳(メタデータ) (2024-10-24T17:02:52Z) - GASP: Gaussian Splatting for Physic-Based Simulations [0.42881773214459123]
既存の物理モデルでは、三角形や四面体メッシュ、マーチングキューブ、ケージメッシュなどのメッシュ機構が追加されている。
我々は3次元ガウス成分と整合するように、基底のニュートン力学を修正した。
結果の解は、ブラックボックスとして扱われるあらゆる物理エンジンに統合できる。
論文 参考訳(メタデータ) (2024-09-09T17:28:57Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Learning 3D Particle-based Simulators from RGB-D Videos [15.683877597215494]
本研究では,シミュレータを直接観測から学習する手法を提案する。
視覚粒子ダイナミクス(VPD)は、3Dシーンの潜在粒子ベースの表現を共同で学習する。
既存の2Dビデオ予測モデルとは異なり、VPDの3D構造はシーン編集と長期予測を可能にする。
論文 参考訳(メタデータ) (2023-12-08T20:45:34Z) - Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis [58.5779956899918]
動的シーンビュー合成と6自由度(6-DOF)追跡のタスクを同時に処理する手法を提案する。
我々は、シーンを3Dガウスアンのコレクションとしてモデル化する最近の研究に触発された、分析バイシンセサイザーの枠組みに従う。
我々は,1人称視点合成,動的合成シーン合成,4次元映像編集など,我々の表現によって実現された多数のダウンストリームアプリケーションを紹介した。
論文 参考訳(メタデータ) (2023-08-18T17:59:21Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos [82.74918564737591]
本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。
実験により,提案手法は,競合するニューラルフィールドアプローチと比較して,動的シーンのメッシュとビデオの再構成に優れることを示した。
論文 参考訳(メタデータ) (2022-10-22T04:57:55Z) - Image GANs meet Differentiable Rendering for Inverse Graphics and
Interpretable 3D Neural Rendering [101.56891506498755]
異なるレンダリングによって、ニューラルネットワークをトレーニングして"逆グラフィックス"タスクを実行する方法が舗装された。
提案手法は,既存のデータセットでトレーニングした最先端の逆グラフネットワークを著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-10-18T22:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。