論文の概要: 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model
- arxiv url: http://arxiv.org/abs/2603.18524v1
- Date: Thu, 19 Mar 2026 06:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.978649
- Title: 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model
- Title(参考訳): 3DreamBooth:高忠実度3D主観駆動ビデオ生成モデル
- Authors: Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, Dongheok Park, Eunbyung Park,
- Abstract要約: 本稿では,3DreamBoothと3Dapterを組み合わせた3D対応ビデオカスタマイズフレームワークを提案する。
3DreamBoothは1フレーム最適化のパラダイムを通じて時間運動から空間幾何学を分離する。
きめ細かいテクスチャを強化し,収束を加速するために,視覚条件モジュールである3Dapterを組み込んだ。
- 参考スコア(独自算出の注目度): 18.407923160013404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating dynamic, view-consistent videos of customized subjects is highly sought after for a wide range of emerging applications, including immersive VR/AR, virtual production, and next-generation e-commerce. However, despite rapid progress in subject-driven video generation, existing methods predominantly treat subjects as 2D entities, focusing on transferring identity through single-view visual features or textual prompts. Because real-world subjects are inherently 3D, applying these 2D-centric approaches to 3D object customization reveals a fundamental limitation: they lack the comprehensive spatial priors necessary to reconstruct the 3D geometry. Consequently, when synthesizing novel views, they must rely on generating plausible but arbitrary details for unseen regions, rather than preserving the true 3D identity. Achieving genuine 3D-aware customization remains challenging due to the scarcity of multi-view video datasets. While one might attempt to fine-tune models on limited video sequences, this often leads to temporal overfitting. To resolve these issues, we introduce a novel framework for 3D-aware video customization, comprising 3DreamBooth and 3Dapter. 3DreamBooth decouples spatial geometry from temporal motion through a 1-frame optimization paradigm. By restricting updates to spatial representations, it effectively bakes a robust 3D prior into the model without the need for exhaustive video-based training. To enhance fine-grained textures and accelerate convergence, we incorporate 3Dapter, a visual conditioning module. Following single-view pre-training, 3Dapter undergoes multi-view joint optimization with the main generation branch via an asymmetrical conditioning strategy. This design allows the module to act as a dynamic selective router, querying view-specific geometric hints from a minimal reference set. Project page: https://ko-lani.github.io/3DreamBooth/
- Abstract(参考訳): 没入型VR/AR、バーチャルプロダクション、次世代電子商取引など、多様な新興アプリケーションのために、カスタマイズされた被験者のダイナミックでビューに一貫性のあるビデオを作ることが求められている。
しかし、主観的映像生成の急速な進歩にもかかわらず、既存の手法は主に被写体を2Dエンティティとして扱い、単一視点の視覚的特徴やテキストによるプロンプトによるアイデンティティの転送に重点を置いている。
現実世界の被験者は本質的に3Dであるため、これらの2D中心のアプローチを3Dオブジェクトのカスタマイズに適用すると、基本的な制限が示される。
したがって、新しいビューを合成する際には、真の3Dアイデンティティを保存するよりも、見えない領域に対して可塑性だが任意の詳細を生成することに頼る必要がある。
マルチビュービデオデータセットが不足しているため、真の3D認識のカスタマイズは依然として難しい。
限られたビデオシーケンスでモデルを微調整しようとする場合もありますが、これは時間的過度なオーバーフィットにつながることが少なくありません。
これらの問題を解決するために,3DreamBoothと3Dapterを組み合わせた3D対応ビデオカスタマイズフレームワークを提案する。
3DreamBoothは1フレーム最適化のパラダイムを通じて時間運動から空間幾何学を分離する。
空間表現の更新を制限することで、徹底的なビデオベースのトレーニングを必要とせずに、モデルに頑健な3Dを効果的に焼き込む。
きめ細かいテクスチャを強化し,収束を加速するために,視覚条件モジュールである3Dapterを組み込んだ。
シングルビュー事前トレーニングの後、3Dapterは、非対称条件付け戦略を介して、メインジェネレーションブランチとのマルチビュー共同最適化を行う。
この設計により、モジュールは動的選択ルータとして機能し、最小限の参照セットからビュー固有の幾何学的ヒントをクエリすることができる。
プロジェクトページ:https://ko-lani.github.io/3DreamBooth/
関連論文リスト
- Beyond Pixel Histories: World Models with Persistent 3D State [50.4601060508243]
PERSISTは、潜伏した3Dシーンの進化をシミュレートする世界モデルの新たなパラダイムである。
既存の手法に比べて空間記憶,3次元整合性,長期安定性が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-03T19:58:31Z) - Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction [13.098585993121722]
本稿では,FantasyWorldについて紹介する。FantasyWorldは,凍結動画基盤モデルをトレーニング可能な幾何学的ブランチで拡張する幾何学的拡張フレームワークである。
提案手法は,3次元予測を正規化するためのガイド映像生成とビデオ優先の手法であるクロスブランチ・インフォメーションを導入する。
実験により、FantasyWorldは映像の想像力と3D知覚を効果的に橋渡しし、近年の多視点コヒーレンスとスタイル整合性において、幾何学的に一貫性のあるベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-25T22:24:23Z) - Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [54.559847511280545]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
論文 参考訳(メタデータ) (2025-02-05T21:49:06Z) - You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。