論文の概要: Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
- arxiv url: http://arxiv.org/abs/2508.17437v1
- Date: Wed, 20 Aug 2025 19:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.523799
- Title: Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
- Title(参考訳): Pixie: 高速で一般化可能な3D物理学習
- Authors: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu,
- Abstract要約: PIXIEは一般的なニューラルネットワークをトレーニングし、監督された損失を使って、複数のシーンにわたる物理的特性を3D視覚的特徴から予測する。
PIXIE は約 1.46-4.39 倍良く、テスト時間最適化法よりも桁違いに高速である。
CLIPのような事前訓練済みの視覚機能を活用することで、合成データのみをトレーニングしたにも関わらず、実世界のシーンにゼロショットで一般化することが可能になる。
- 参考スコア(独自算出の注目度): 46.76145349237445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inferring the physical properties of 3D scenes from visual information is a critical yet challenging task for creating interactive and realistic virtual worlds. While humans intuitively grasp material characteristics such as elasticity or stiffness, existing methods often rely on slow, per-scene optimization, limiting their generalizability and application. To address this problem, we introduce PIXIE, a novel method that trains a generalizable neural network to predict physical properties across multiple scenes from 3D visual features purely using supervised losses. Once trained, our feed-forward network can perform fast inference of plausible material fields, which coupled with a learned static scene representation like Gaussian Splatting enables realistic physics simulation under external forces. To facilitate this research, we also collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and physic material annotations. Extensive evaluations demonstrate that PIXIE is about 1.46-4.39x better and orders of magnitude faster than test-time optimization methods. By leveraging pretrained visual features like CLIP, our method can also zero-shot generalize to real-world scenes despite only ever been trained on synthetic data. https://pixie-3d.github.io/
- Abstract(参考訳): 視覚情報から3Dシーンの物理的特性を推定することは、インタラクティブでリアルな仮想世界を作る上で、非常に難しい課題である。
人間は弾力性や硬さなどの材料特性を直感的に把握するが、既存の方法はしばしば遅くてシーンごとの最適化に頼り、一般化性と応用を制限している。
この問題に対処するため、PIXIEは汎用ニューラルネットワークをトレーニングし、教師付き損失を純粋に利用して、複数のシーンにまたがる物理的特性を3次元視覚的特徴から予測する手法である。
トレーニング後,我々のフィードフォワードネットワークは,ガウス・スプレイティングのような学習された静的シーン表現と組み合わせることで,外部力下での現実的な物理シミュレーションを可能にする。
PIXIEVERSE(PIXIEVERSE)は,2つの3Dアセットと物理物質アノテーションの組合わせで知られている最大規模のデータセットの1つである。
大規模な評価は、PIXIEがテスト時間最適化法よりも約1.46-4.39倍、桁違いに高速であることを示している。
CLIPのような事前訓練済みの視覚機能を活用することで、合成データのみをトレーニングしたにも関わらず、実世界のシーンにゼロショットで一般化することが可能になる。
https://pixie-3d.github.io/
関連論文リスト
- TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos [7.616167860385134]
複雑な動的3次元シーンの運動物理をモデル化する新しいフレームワークTRACEを提案する。
各3次元点を空間の大きさと向きの剛性粒子として定式化することにより、各粒子の変換回転力学系を直接学習する。
論文 参考訳(メタデータ) (2025-08-13T13:43:01Z) - FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian Velocity [15.375932203870594]
多視点ビデオから3Dシーンの幾何学、外観、基礎となる物理をモデル化することを目的としている。
本稿では,複雑な動的3次元シーンの物理を学ぶために,物体の先行を必要とせずにFreeGaveを提案する。
論文 参考訳(メタデータ) (2025-06-09T15:31:25Z) - Learning 3D-Gaussian Simulators from RGB Videos [20.250137125726265]
3DGSimは学習した3Dシミュレータで、マルチビューのRGBビデオから物理的相互作用を学習する。
3Dシーンの再構成、粒子動力学予測、ビデオ合成をエンドツーエンドのトレーニングフレームワークに統合する。
論文 参考訳(メタデータ) (2025-03-31T12:33:59Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - FLARE: Fast Learning of Animatable and Relightable Mesh Avatars [64.48254296523977]
私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
単眼ビデオからアニマタブルアバターとリライトブルアバターの作成を可能にする技術であるFLAREを紹介する。
論文 参考訳(メタデータ) (2023-10-26T16:13:00Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。