論文の概要: VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
- arxiv url: http://arxiv.org/abs/2504.01956v1
- Date: Wed, 02 Apr 2025 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:09.967934
- Title: VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
- Title(参考訳): VideoScene:3Dシーンを1ステップで生成するビデオ拡散モデル
- Authors: Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan,
- Abstract要約: VideoSceneは、ビデオ拡散モデルを蒸留して、ワンステップで3Dシーンを生成する。
VideoSceneは従来のビデオ拡散モデルよりも高速で優れた3Dシーン生成結果が得られる。
- 参考スコア(独自算出の注目度): 13.168559963356952
- License:
- Abstract: Recovering 3D scenes from sparse views is a challenging task due to its inherent ill-posed problem. Conventional methods have developed specialized solutions (e.g., geometry regularization or feed-forward deterministic model) to mitigate the issue. However, they still suffer from performance degradation by minimal overlap across input views with insufficient visual information. Fortunately, recent video generative models show promise in addressing this challenge as they are capable of generating video clips with plausible 3D structures. Powered by large pretrained video diffusion models, some pioneering research start to explore the potential of video generative prior and create 3D scenes from sparse views. Despite impressive improvements, they are limited by slow inference time and the lack of 3D constraint, leading to inefficiencies and reconstruction artifacts that do not align with real-world geometry structure. In this paper, we propose VideoScene to distill the video diffusion model to generate 3D scenes in one step, aiming to build an efficient and effective tool to bridge the gap from video to 3D. Specifically, we design a 3D-aware leap flow distillation strategy to leap over time-consuming redundant information and train a dynamic denoising policy network to adaptively determine the optimal leap timestep during inference. Extensive experiments demonstrate that our VideoScene achieves faster and superior 3D scene generation results than previous video diffusion models, highlighting its potential as an efficient tool for future video to 3D applications. Project Page: https://hanyang-21.github.io/VideoScene
- Abstract(参考訳): スパースビューから3Dシーンを復元することは、固有の不適切な問題のために難しい作業である。
従来の手法では、問題を緩和するために特別な解(例えば、幾何正則化やフィードフォワード決定論モデル)を開発した。
しかし、入力ビュー間の重複が最小限に抑えられ、視覚情報が不足しているため、パフォーマンスの低下に悩まされている。
幸いなことに、最近のビデオ生成モデルは、この課題に対処する上で有望な3D構造を持つビデオクリップを生成することを約束している。
大きな事前訓練されたビデオ拡散モデルによって、いくつかの先駆的な研究は、ビデオ生成前の可能性を探求し、スパースビューから3Dシーンを作成する。
目覚ましい改善にもかかわらず、3次元の制約が欠如しているため、実世界の幾何学構造と整合しない非効率性や復元アーチファクトに繋がる。
本稿では,ビデオから3Dへのギャップを埋める効率的なツールを構築することを目的として,ビデオ拡散モデルを用いて1ステップで3Dシーンを生成する方法を提案する。
具体的には,時間を要する余剰情報を跳躍する3D対応の跳躍流蒸留法を設計し,動的復調ポリシーネットワークを訓練し,推論中の最適な跳躍時間ステップを適応的に決定する。
広汎な実験により、われわれのVideoSceneは従来のビデオ拡散モデルよりも高速で優れた3Dシーン生成結果が得られ、将来の3Dアプリケーションのための効率的なツールとしての可能性を強調している。
Project Page: https://hanyang-21.github.io/VideoScene
関連論文リスト
- VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [63.21396416244634]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルから潜伏木を用いた大規模再構成モデルを導入し,シーンの3次元ガウススプラッティングを予測する。
プログレッシブトレーニング戦略により,映像潜時空間上での3D再構成モデルをトレーニングし,高品質,広スコープ,汎用的な3Dシーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion [3.545941891218148]
本稿では,現在のアプローチのように時間とともに多視点一貫性を明示的に実施する必要があるか,あるいはモデルが各タイムステップの3次元表現を独立に生成するのに十分なのかを検討する。
本稿では,2次元映像拡散を利用して3次元映像を生成するモデルVid3Dを提案する。
論文 参考訳(メタデータ) (2024-06-17T04:09:04Z) - OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation [0.0]
編集可能なダイナミック3Dモデルとビデオ生成のための1つの画像は、単一の画像の研究領域を3D表現や画像の3D再構成に変換する新しい方向と変化である。
編集可能な3Dモデルを生成し,対象とする連続時間無制限の3Dビデオを生成するために,単一の画像を使用する方法と理論であるOneTo3Dを提案する。
論文 参考訳(メタデータ) (2024-05-10T15:44:11Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。
これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。
提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文 参考訳(メタデータ) (2024-03-11T14:03:36Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。