論文の概要: Voyaging into Perpetual Dynamic Scenes from a Single View
- arxiv url: http://arxiv.org/abs/2507.04183v2
- Date: Sat, 02 Aug 2025 03:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:57.392426
- Title: Voyaging into Perpetual Dynamic Scenes from a Single View
- Title(参考訳): 単一視点からの永遠のダイナミックシーンへのヴォイジング
- Authors: Fengrui Tian, Tianjiao Ding, Jinqi Luo, Hancheng Min, René Vidal,
- Abstract要約: 主な課題は、異なる生成されたビューが基礎となる3Dモーションと一致していることを保証することだ。
そこで本稿では,動的シーン生成を動的コンテンツによるシーン性能問題として再定義するDynamicVoyagerを提案する。
実験により、我々のモデルは、フライスルーカメラに沿って一貫した動きを持つ永遠のシーンを生成できることが示されている。
- 参考スコア(独自算出の注目度): 31.85867311855001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of generating a perpetual dynamic scene from a single view is an important problem with widespread applications in augmented and virtual reality, and robotics. However, since dynamic scenes regularly change over time, a key challenge is to ensure that different generated views be consistent with the underlying 3D motions. Prior work learns such consistency by training on multiple views, but the generated scene regions often interpolate between training views and fail to generate perpetual views. To address this issue, we propose DynamicVoyager, which reformulates dynamic scene generation as a scene outpainting problem with new dynamic content. As 2D outpainting models struggle at generating 3D consistent motions from a single 2D view, we enrich 2D pixels with information from their 3D rays that facilitates learning of 3D motion consistency. More specifically, we first map the single-view video input to a dynamic point cloud using the estimated video depths. We then render a partial video of the point cloud from a novel view and outpaint the missing regions using ray information (e.g., the distance from a ray to the point cloud) to generate 3D consistent motions. Next, we use the outpainted video to update the point cloud, which is used for outpainting the scene from future novel views. Moreover, we can control the generated content with the input text prompt. Experiments show that our model can generate perpetual scenes with consistent motions along fly-through cameras. Project page: https://tianfr.github.io/DynamicVoyager.
- Abstract(参考訳): 単一視点から永続的なダイナミックシーンを生成するという問題は、拡張現実や仮想現実、ロボット工学における幅広い応用において重要な問題である。
しかし、動的なシーンは時間とともに定期的に変化するため、異なる生成されたビューが基礎となる3Dモーションと一致していることを保証することが重要な課題である。
以前の作業では、複数のビューをトレーニングすることで、このような一貫性を学習するが、生成されたシーン領域は、しばしばトレーニングビューの間を介在し、永続的なビューを生成することができない。
この問題に対処するために,動的シーン生成を新たな動的コンテンツによるシーン性能問題として再構成するDynamicVoyagerを提案する。
2Dアウトペイントモデルは、単一の2Dビューから3D一貫した動きを生成するのに苦労するので、我々は2Dピクセルに3D画像の情報を加え、3D一貫した動きの学習を容易にする。
より具体的には、推定されたビデオ深度を用いて、シングルビュービデオ入力を動的ポイントクラウドにマッピングする。
次に、新しい視点から点雲の部分的な映像をレンダリングし、光線情報(例えば、光線から点雲までの距離)を用いて欠落した領域を映し出し、3次元一貫した動きを生成する。
次に、アウトペイントされたビデオを使用してポイントクラウドを更新します。
さらに、入力されたテキストプロンプトで生成されたコンテンツを制御できる。
実験により、我々のモデルは、フライスルーカメラに沿って一貫した動きを持つ永遠のシーンを生成できることが示されている。
プロジェクトページ: https://tianfr.github.io/DynamicVoyager.com
関連論文リスト
- DreamJourney: Perpetual View Generation with Video Diffusion Models [91.88716097573206]
永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。
近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。
本稿では,映像拡散モデルの世界シミュレーション能力を活用して,新たなシーンビュー生成タスクを起動する2段階フレームワークであるDreamJourneyを紹介する。
論文 参考訳(メタデータ) (2025-06-21T12:51:34Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - PaintScene4D: Consistent 4D Scene Generation from Text Prompts [29.075849524496707]
PaintScene4Dは、新しいテキストから4Dのシーン生成フレームワークである。
さまざまな現実世界のデータセットでトレーニングされたビデオ生成モデルを活用する。
任意の軌道から見ることができるリアルな4Dシーンを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:59:57Z) - Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。