Fugu-MT 論文翻訳(概要): Seeing World Dynamics in a Nutshell

論文の概要: Seeing World Dynamics in a Nutshell

arxiv url: http://arxiv.org/abs/2502.03465v2
Date: Mon, 17 Mar 2025 06:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.290722
Title: Seeing World Dynamics in a Nutshell
Title（参考訳）: ナットシェルで世界ダイナミクスを見る
Authors: Qiuhong Shen, Xuanyu Yi, Mingbao Lin, Hanwang Zhang, Shuicheng Yan, Xinchao Wang,
Abstract要約: NutWorldはモノクロ動画をダイナミックな3D表現に変換するフレームワークである。我々は,NutWorldがリアルタイムにダウンストリームアプリケーションを実現しつつ,高忠実度ビデオ再構成品質を実現することを実証した。
参考スコア（独自算出の注目度）: 132.79736435144403
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We consider the problem of efficiently representing casually captured monocular videos in a spatially- and temporally-coherent manner. While existing approaches predominantly rely on 2D/2.5D techniques treating videos as collections of spatiotemporal pixels, they struggle with complex motions, occlusions, and geometric consistency due to absence of temporal coherence and explicit 3D structure. Drawing inspiration from monocular video as a projection of the dynamic 3D world, we explore representing videos in their intrinsic 3D form through continuous flows of Gaussian primitives in space-time. In this paper, we propose NutWorld, a novel framework that efficiently transforms monocular videos into dynamic 3D Gaussian representations in a single forward pass. At its core, NutWorld introduces a structured spatial-temporal aligned Gaussian (STAG) representation, enabling optimization-free scene modeling with effective depth and flow regularization. Through comprehensive experiments, we demonstrate that NutWorld achieves high-fidelity video reconstruction quality while enabling various downstream applications in real-time. Demos and code will be available at https://github.com/Nut-World/NutWorld.
Abstract（参考訳）: 本研究では, カジュアルにキャプチャされたモノクロ映像を空間的に, 時間的に一貫した方法で効率よく表現する問題について考察する。既存のアプローチは、ビデオを時空間画素の集合として扱う2D/2.5D技術に大きく依存しているが、時間的コヒーレンスや明示的な3D構造が欠如しているため、複雑な動き、閉塞、幾何学的一貫性に苦慮している。動的3次元世界の投影としてモノクロ映像からインスピレーションを得て,時空におけるガウス原始体の連続的な流れを通して,その内在的な3次元映像の表現を探索する。本稿では,モノクロ映像を動的3次元ガウス表現に効率よく変換する新しいフレームワークNutWorldを提案する。 NutWorldの中核となるのは、構造化時空間整列ガウス(STAG)表現を導入し、効果的な深さと流れの正規化による最適化のないシーンモデリングを可能にする。包括的実験により,NutWorldはリアルタイムに様々なダウンストリームアプリケーションを実現するとともに,高忠実度ビデオ再構成品質を実現することを実証した。デモとコードはhttps://github.com/Nut-World/NutWorld.comで公開される。

関連論文リスト

FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction [64.30050475414947]
FreeTimeGSはガウスのプリミティブを任意の時間と位置で表示できる新しい4D表現である。我々の表現は強い柔軟性を持ち、ダイナミックな3Dシーンをモデル化する能力を向上させる。いくつかのデータセットに対する実験結果から,本手法のレンダリング品質は,最近の手法よりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2025-06-05T17:59:57Z)
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文参考訳（メタデータ） (2025-06-04T17:59:04Z)
Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-27T01:44:46Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video [26.468480933928458]
高品質な再構成とモノクロビデオからの高速レンダリングを実現するために,COLMAPフリーな動的3DガウススティングフレームワークであるSplineGSを提案する。中心となるのは、連続的な動的3次元ガウス軌道を表す新しい動き適応スプライン(MAS)法である。カメラパラメータ推定と3次元ガウス属性の同時最適化手法を提案する。
論文参考訳（メタデータ） (2024-12-13T09:09:14Z)
S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文参考訳（メタデータ） (2024-08-23T12:51:49Z)
Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-07-18T17:59:08Z)
Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses [9.529416246409355]
本研究では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。キーとなるアイデアとして、最近出現した3Dガウススプラッティング(3D-GS)表現を通じて、世界と複数の人間の両方を表現します。
論文参考訳（メタデータ） (2024-04-22T17:59:50Z)
LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文参考訳（メタデータ） (2024-04-13T11:07:53Z)
Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。 textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。 SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文参考訳（メタデータ） (2024-03-02T08:18:57Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文参考訳（メタデータ） (2023-04-04T11:25:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。