論文の概要: Optimizing 4D Gaussians for Dynamic Scene Video from Single Landscape Images
- arxiv url: http://arxiv.org/abs/2504.05458v1
- Date: Fri, 04 Apr 2025 06:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 03:58:10.366128
- Title: Optimizing 4D Gaussians for Dynamic Scene Video from Single Landscape Images
- Title(参考訳): 単一景観画像からの動的シーン映像のための4次元ガウスアンの最適化
- Authors: In-Hwan Jin, Haesoo Choo, Seong-Hun Jeong, Heemoon Park, Junghwan Kim, Oh-joon Kwon, Kyeongbo Kong,
- Abstract要約: 一つの画像から4次元ガウス表現をモデル化することにより,ダイナミックシーン映像の完全な3次元空間を表現することを提案する。
私たちが知る限りでは、これは単一の風景画像から完全な3D空間を表現しながらアニメーションを考える最初の試みである。
- 参考スコア(独自算出の注目度): 5.754780404074765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To achieve realistic immersion in landscape images, fluids such as water and clouds need to move within the image while revealing new scenes from various camera perspectives. Recently, a field called dynamic scene video has emerged, which combines single image animation with 3D photography. These methods use pseudo 3D space, implicitly represented with Layered Depth Images (LDIs). LDIs separate a single image into depth-based layers, which enables elements like water and clouds to move within the image while revealing new scenes from different camera perspectives. However, as landscapes typically consist of continuous elements, including fluids, the representation of a 3D space separates a landscape image into discrete layers, and it can lead to diminished depth perception and potential distortions depending on camera movement. Furthermore, due to its implicit modeling of 3D space, the output may be limited to videos in the 2D domain, potentially reducing their versatility. In this paper, we propose representing a complete 3D space for dynamic scene video by modeling explicit representations, specifically 4D Gaussians, from a single image. The framework is focused on optimizing 3D Gaussians by generating multi-view images from a single image and creating 3D motion to optimize 4D Gaussians. The most important part of proposed framework is consistent 3D motion estimation, which estimates common motion among multi-view images to bring the motion in 3D space closer to actual motions. As far as we know, this is the first attempt that considers animation while representing a complete 3D space from a single landscape image. Our model demonstrates the ability to provide realistic immersion in various landscape images through diverse experiments and metrics. Extensive experimental results are https://cvsp-lab.github.io/ICLR2025_3D-MOM/.
- Abstract(参考訳): 風景画像に現実的な没入を実現するには、水や雲などの流体を画像内に移動させ、様々なカメラの視点から新たなシーンを明らかにする必要がある。
近年,1枚のアニメーションと3D写真を組み合わせたダイナミックシーンビデオという分野が出現している。
これらの手法は擬似3D空間を使用し、暗黙的にレイヤー深度画像 (Layered Depth Images, LDI) で表される。
LDIは、単一の画像を深度ベースの層に分離し、水や雲などの要素を画像の中に移動させながら、異なるカメラの視点から新たなシーンを明らかにする。
しかし、ランドスケープは通常、流体を含む連続的な要素で構成されているため、3次元空間の表現はランドスケープイメージを個別の層に分離し、カメラの動きに応じて深度知覚と潜在的な歪みを減少させる可能性がある。
さらに、3D空間の暗黙的なモデリングのため、出力は2Dドメインのビデオに限られる可能性があるため、その汎用性が低下する可能性がある。
本稿では,1枚の画像から,特に4次元ガウス表現をモデル化することにより,ダイナミックシーン映像の完全な3次元空間を表現することを提案する。
このフレームワークは、単一の画像からマルチビュー画像を生成し、4Dガウスを最適化する3Dモーションを生成することで、3Dガウスを最適化することに焦点を当てている。
提案するフレームワークの最も重要な部分は、多視点画像間の共通動きを推定し、実際の動きに近づいた3次元空間における動きを推定する、一貫した3次元運動推定である。
私たちが知る限りでは、これは単一の風景画像から完全な3D空間を表現しながらアニメーションを考える最初の試みである。
本モデルは,多様な実験とメトリクスを用いて,様々な風景画像にリアルな没入感を提供する能力を示す。
大規模な実験結果はhttps://cvsp-lab.github.io/ICLR2025_3D-MOM/である。
関連論文リスト
- Gaussians-to-Life: Text-Driven Animation of 3D Gaussian Splatting Scenes [49.26872036160368]
ガウススティング表現における高品質な3Dシーンの一部をアニメーションする手法を提案する。
従来の作業とは対照的に、複雑な既存の3Dシーンのリアルなアニメーションを可能にする。
論文 参考訳(メタデータ) (2024-11-28T16:01:58Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。
本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。
実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文 参考訳(メタデータ) (2024-04-13T11:07:53Z) - SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。