論文の概要: AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
- arxiv url: http://arxiv.org/abs/2510.10670v1
- Date: Sun, 12 Oct 2025 15:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.058161
- Title: AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
- Title(参考訳): AdaViewPlanner:4Dシーンの視点計画にビデオ拡散モデルを適用する
- Authors: Yu Li, Menghan Xia, Gongye Liu, Jianhong Bai, Xintao Wang, Conglang Zhang, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Yujiu Yang,
- Abstract要約: 最近のテキスト・トゥ・ビデオ(T2V)モデルは、実世界の幾何学と物理法則の視覚シミュレーションにおいて強力な能力を示している。
本稿では,事前学習したT2Vモデルを用いて視点予測を行うための2段階のパラダイムを提案する。
- 参考スコア(独自算出の注目度): 63.055387623861094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Text-to-Video (T2V) models have demonstrated powerful capability in visual simulation of real-world geometry and physical laws, indicating its potential as implicit world models. Inspired by this, we explore the feasibility of leveraging the video generation prior for viewpoint planning from given 4D scenes, since videos internally accompany dynamic scenes with natural viewpoints. To this end, we propose a two-stage paradigm to adapt pre-trained T2V models for viewpoint prediction, in a compatible manner. First, we inject the 4D scene representation into the pre-trained T2V model via an adaptive learning branch, where the 4D scene is viewpoint-agnostic and the conditional generated video embeds the viewpoints visually. Then, we formulate viewpoint extraction as a hybrid-condition guided camera extrinsic denoising process. Specifically, a camera extrinsic diffusion branch is further introduced onto the pre-trained T2V model, by taking the generated video and 4D scene as input. Experimental results show the superiority of our proposed method over existing competitors, and ablation studies validate the effectiveness of our key technical designs. To some extent, this work proves the potential of video generation models toward 4D interaction in real world.
- Abstract(参考訳): 最近のテキスト・トゥ・ビデオ(T2V)モデルは、実世界の幾何学と物理法則の視覚シミュレーションにおいて強力な能力を示し、暗黙の世界モデルとしての可能性を示している。
そこで本研究では、4Dシーンから視点計画に先立って映像生成を活用できる可能性について検討する。
そこで本研究では,事前学習したT2Vモデルを視点予測に適用するための2段階のパラダイムを提案する。
まず、4Dシーンは視点に依存しず、条件付き生成されたビデオは視点を視覚的に埋め込む適応学習ブランチを介して、事前訓練されたT2Vモデルに4Dシーン表現を注入する。
そこで我々は,視点抽出をハイブリッド・コンディショニング・カメラ・エクストラネッセンス・デノナイズ・プロセスとして定式化する。
具体的には、生成された映像と4Dシーンを入力として、予め訓練されたT2Vモデルにカメラ外拡散分枝をさらに導入する。
実験結果から,提案手法が既存の競合他社よりも優れていることを示すとともに,重要な技術設計の有効性を検証した。
この研究は、実世界における4Dインタラクションに向けた映像生成モデルの可能性を示すものである。
関連論文リスト
- 4DNeX: Feed-Forward 4D Generative Modeling Made Easy [51.79072580042173]
1つの画像から4D(動的3D)シーン表現を生成するための最初のフィードフォワードフレームワークである4DNeXを提案する。
計算集約的な最適化やマルチフレームビデオ入力を必要とする既存の方法とは対照的に、4DNeXは効率的でエンドツーエンドの画像から4D生成を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:55Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation [29.579493980120173]
HoloTimeは、ビデオ拡散モデルを統合して、単一のプロンプトまたは参照イメージからパノラマビデオを生成するフレームワークである。
360Worldデータセットは、下流の4Dシーン再構築タスクに適したパノラマビデオの包括的なコレクションである。
パノラマアニメーションは、パノラマ画像を高品質のパノラマビデオに変換する2段階のイメージ・ツー・ビデオ拡散モデルである。
パノラマ空間時間再構成は、空間時間深度推定法を用いて、生成されたパノラマ映像を4次元の点雲に変換する。
論文 参考訳(メタデータ) (2025-04-30T13:55:28Z) - Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video [12.283639677279645]
マルチステージ最適化フレームワークであるUni4Dを導入し,複数の事前学習モデルを用いて動的3Dモデリングを行う。
その結果,動的4次元モデリングにおける視覚的品質の優れた最先端性能が示された。
論文 参考訳(メタデータ) (2025-03-27T17:57:32Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Predicting 3D representations for Dynamic Scenes [29.630985082164383]
単眼ビデオストリームを用いた動的放射場予測のための新しいフレームワークを提案する。
動的シーンの3次元表現を明示的に生成することで,本手法はさらに一歩前進する。
私たちのアプローチは、幾何学と意味学習の能力を生み出します。
論文 参考訳(メタデータ) (2025-01-28T01:31:15Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。