Fugu-MT 論文翻訳(概要): Predicting 3D representations for Dynamic Scenes

論文の概要: Predicting 3D representations for Dynamic Scenes

arxiv url: http://arxiv.org/abs/2501.16617v1
Date: Tue, 28 Jan 2025 01:31:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:11.019815
Title: Predicting 3D representations for Dynamic Scenes
Title（参考訳）: ダイナミックシーンの3次元表現予測
Authors: Di Qi, Tong Yang, Beining Wang, Xiangyu Zhang, Wenqiang Zhang,
Abstract要約: 単眼ビデオストリームを用いた動的放射場予測のための新しいフレームワークを提案する。動的シーンの3次元表現を明示的に生成することで,本手法はさらに一歩前進する。私たちのアプローチは、幾何学と意味学習の能力を生み出します。
参考スコア（独自算出の注目度）: 29.630985082164383
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a novel framework for dynamic radiance field prediction given monocular video streams. Unlike previous methods that primarily focus on predicting future frames, our method goes a step further by generating explicit 3D representations of the dynamic scene. The framework builds on two core designs. First, we adopt an ego-centric unbounded triplane to explicitly represent the dynamic physical world. Second, we develop a 4D-aware transformer to aggregate features from monocular videos to update the triplane. Coupling these two designs enables us to train the proposed model with large-scale monocular videos in a self-supervised manner. Our model achieves top results in dynamic radiance field prediction on NVIDIA dynamic scenes, demonstrating its strong performance on 4D physical world modeling. Besides, our model shows a superior generalizability to unseen scenarios. Notably, we find that our approach emerges capabilities for geometry and semantic learning.
Abstract（参考訳）: 単眼ビデオストリームを用いた動的放射場予測のための新しいフレームワークを提案する。将来のフレームの予測に主眼を置いていた従来の手法とは異なり,本手法は動的シーンの3次元表現を明示的に生成することでさらに一歩前進する。このフレームワークは2つのコア設計に基づいている。まず、動的物理世界を表現するために、エゴ中心の非有界三葉機を採用する。第2に、単眼ビデオから特徴を集約してトリプレーンを更新する4D対応トランスフォーマーを開発した。これら2つの設計を結合することで,大規模モノクロビデオによる自己教師型モデルの構築が可能となる。提案モデルでは,NVIDIAの動的シーンにおける動的放射場予測の上位結果が得られ,物理世界モデリングにおけるその強みを実証している。さらに、我々のモデルは、目に見えないシナリオに対して優れた一般化性を示す。特に、我々のアプローチは幾何学と意味学習の能力を生み出している。

関連論文リスト

TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文参考訳（メタデータ） (2025-04-29T17:59:30Z)
PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文参考訳（メタデータ） (2025-03-25T17:59:58Z)
Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文参考訳（メタデータ） (2024-07-31T08:54:50Z)
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文参考訳（メタデータ） (2024-07-24T17:59:43Z)
Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-07-18T17:59:08Z)
NVFi: Neural Velocity Fields for 3D Physics Learning from Dynamic Videos [8.559809421797784]
本稿では,映像フレームからのみ3次元シーンの形状,外観,身体的速度を同時に学習することを提案する。複数のデータセットに対して広範な実験を行い、全てのベースライン上での手法の優れた性能を示す。
論文参考訳（メタデータ） (2023-12-11T14:07:31Z)
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。本手法はセンサシミュレーションにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-11-03T17:59:55Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文参考訳（メタデータ） (2021-07-08T17:49:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。