論文の概要: Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image
- arxiv url: http://arxiv.org/abs/2308.10257v1
- Date: Sun, 20 Aug 2023 12:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:36:53.816357
- Title: Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image
- Title(参考訳): Make-It-4D: 単一画像から長時間のダイナミックシーン映像を合成する
- Authors: Liao Shen, Xingyi Li, Huiqiang Sun, Juewen Peng, Ke Xian, Zhiguo Cao,
Guosheng Lin
- Abstract要約: 本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
- 参考スコア(独自算出の注目度): 59.18564636990079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of synthesizing a long-term dynamic video from only a
single image. This is challenging since it requires consistent visual content
movements given large camera motions. Existing methods either hallucinate
inconsistent perpetual views or struggle with long camera trajectories. To
address these issues, it is essential to estimate the underlying 4D (including
3D geometry and scene motion) and fill in the occluded regions. To this end, we
present Make-It-4D, a novel method that can generate a consistent long-term
dynamic video from a single image. On the one hand, we utilize layered depth
images (LDIs) to represent a scene, and they are then unprojected to form a
feature point cloud. To animate the visual content, the feature point cloud is
displaced based on the scene flow derived from motion estimation and the
corresponding camera pose. Such 4D representation enables our method to
maintain the global consistency of the generated dynamic video. On the other
hand, we fill in the occluded regions by using a pretrained diffusion model to
inpaint and outpaint the input image. This enables our method to work under
large camera motions. Benefiting from our design, our method can be
training-free which saves a significant amount of training time. Experimental
results demonstrate the effectiveness of our approach, which showcases
compelling rendering results.
- Abstract(参考訳): 本研究では,1枚の画像のみから長期動的映像を合成する問題について検討する。
大きなカメラの動きに対して一貫した視覚コンテンツの動きを必要とするため、これは難しい。
既存の方法は、一貫性のない永遠の視点を幻覚するか、長いカメラの軌跡に苦しむかのどちらかである。
これらの問題に対処するためには、基礎となる4D(3次元幾何学やシーンモーションを含む)を推定し、閉塞領域を埋めることが不可欠である。
この目的のために,単一の画像から一貫した長期ダイナミックビデオを生成する新しい手法であるMake-It-4Dを提案する。
一方、シーンを表すために層状深度画像(LDI)を使用し、特徴点雲を形成するために計画されていない。
映像コンテンツをアニメーションするために、動き推定と対応するカメラポーズから得られるシーンフローに基づいて特徴点雲を変位させる。
このような4D表現により、生成したダイナミックビデオのグローバルな一貫性を維持することができる。
一方,事前学習した拡散モデルを用いて入力画像の塗り出し・塗り出しを行うことにより,オクルード領域を埋める。
これにより,大型カメラ動作下での動作が可能となった。
我々の設計の利点により、この手法はトレーニングフリーであり、かなりのトレーニング時間を節約できる。
提案手法の有効性を実験的に検証し, 有意なレンダリング結果を示した。
関連論文リスト
- GFlow: Recovering 4D World from Monocular Video [58.63051670458107]
GFlowは、ビデオ(3D)を4次元の明示的な表現に持ち上げるフレームワークで、空間と時間を通してガウスのスプラッティングの流れを包含する。
GFlowはまずシーンを静止部分と移動部分にクラスタリングし、逐次最適化プロセスを適用する。
GFlowは、単なる4D再構築の境界を超越する。
論文 参考訳(メタデータ) (2024-05-28T17:59:22Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - DPMix: Mixture of Depth and Point Cloud Video Experts for 4D Action
Segmentation [39.806610397357986]
本稿では,自己中心型アクションセグメンテーションタスクのためのHuman-Object Interaction 4D(HOI4D)データセットについて検討した。
我々は、ポイントクラウドビデオを深度ビデオに変換し、従来のビデオモデリング手法を用いて4Dアクションセグメンテーションを改善する。
提案手法は,HOI4D Challenge 2023の4Dアクショントラックにおいて,第1位を達成した。
論文 参考訳(メタデータ) (2023-07-31T16:14:24Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。