論文の概要: One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
- arxiv url: http://arxiv.org/abs/2511.18922v1
- Date: Mon, 24 Nov 2025 09:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.131069
- Title: One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
- Title(参考訳): One4D: 分離されたLoRA制御による統一4D生成と再構成
- Authors: Zhenxing Mi, Yuxin Wang, Dan Xu,
- Abstract要約: One4Dは4D生成と再構築のための統一されたフレームワークである。
動的4Dコンテンツを同期RGBフレームとポイントマップとして生成する。
One4Dは、控えめな計算予算の下で、合成された4Dデータセットと実際の4Dデータセットの混合に基づいて訓練される。
- 参考スコア(独自算出の注目度): 15.085082024859142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present One4D, a unified framework for 4D generation and reconstruction that produces dynamic 4D content as synchronized RGB frames and pointmaps. By consistently handling varying sparsities of conditioning frames through a Unified Masked Conditioning (UMC) mechanism, One4D can seamlessly transition between 4D generation from a single image, 4D reconstruction from a full video, and mixed generation and reconstruction from sparse frames. Our framework adapts a powerful video generation model for joint RGB and pointmap generation, with carefully designed network architectures. The commonly used diffusion finetuning strategies for depthmap or pointmap reconstruction often fail on joint RGB and pointmap generation, quickly degrading the base video model. To address this challenge, we introduce Decoupled LoRA Control (DLC), which employs two modality-specific LoRA adapters to form decoupled computation branches for RGB frames and pointmaps, connected by lightweight, zero-initialized control links that gradually learn mutual pixel-level consistency. Trained on a mixture of synthetic and real 4D datasets under modest computational budgets, One4D produces high-quality RGB frames and accurate pointmaps across both generation and reconstruction tasks. This work represents a step toward general, high-quality geometry-based 4D world modeling using video diffusion models. Project page: https://mizhenxing.github.io/One4D
- Abstract(参考訳): 動的4Dコンテンツを同期したRGBフレームとポイントマップとして生成する4D生成と再構成のための統合フレームワークであるOne4Dを提案する。
統一マスクドコンディショニング(UMC)機構により、コンディショニングフレームの様々な間隔を一貫して扱うことにより、ワン4Dは、単一の画像から4D生成、フルビデオからの4D再構成、スパースフレームからの混合生成と再構成をシームレスに行うことができる。
我々のフレームワークは、ネットワークアーキテクチャを慎重に設計した共同RGBとポイントマップ生成に強力なビデオ生成モデルを適用している。
ディープマップやポイントマップ再構成のための拡散微調整戦略は、しばしば共同RGBとポイントマップ生成で失敗し、ベースビデオモデルが急速に劣化する。
この課題に対処するために、RGBフレームとポイントマップのためのデカップリング計算分岐を生成するために2つのモダリティ固有のLoRAアダプタを使用するDecoupled LoRA Control (DLC)を導入し、互いにピクセルレベルの一貫性を徐々に学習する軽量なゼロ初期化制御リンクで接続する。
控えめな計算予算の下で合成された4Dデータセットと実際の4Dデータセットを混合してトレーニングされたOne4Dは、生成タスクと再構築タスクの両方で高品質なRGBフレームと正確なポイントマップを生成する。
この研究は、ビデオ拡散モデルを用いた一般的な、高品質な幾何学ベースの4次元世界モデリングに向けた一歩である。
プロジェクトページ: https://mizhenxing.github.io/One4D
関連論文リスト
- 4DNeX: Feed-Forward 4D Generative Modeling Made Easy [51.79072580042173]
1つの画像から4D(動的3D)シーン表現を生成するための最初のフィードフォワードフレームワークである4DNeXを提案する。
計算集約的な最適化やマルチフレームビデオ入力を必要とする既存の方法とは対照的に、4DNeXは効率的でエンドツーエンドの画像から4D生成を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:55Z) - Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [3.1852855132066673]
現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
論文 参考訳(メタデータ) (2025-08-11T08:55:47Z) - MVG4D: Image Matrix-Based Multi-View and Motion Generation for 4D Content Creation from a Single Image [8.22464804794448]
静止画像から動的4Dコンテンツを生成する新しいフレームワークであるMVG4Dを提案する。
MVG4Dのコアとなるのは、時間的コヒーレントで空間的に多様なマルチビュー画像を合成するイメージマトリックスモジュールである。
本手法は, 時間的一貫性, 幾何学的忠実度, 視覚的リアリズムを効果的に向上させ, 動きの不連続性や背景劣化における重要な課題に対処する。
論文 参考訳(メタデータ) (2025-07-24T12:48:14Z) - 4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation [66.20991603309054]
本稿では,映像フレームの4次元時間格子と3次元ガウス粒子の時間ステップ毎にフィードフォワードアーキテクチャを用いて計算可能な最初のフレームワークを提案する。
まず,2ストリーム設計において,空間的および時間的注意を連続的に,あるいは並列に行う4次元ビデオ拡散アーキテクチャを解析する。
第2部では、ガウスヘッド、カメラトークン置換アルゴリズム、追加の動的レイヤとトレーニングを導入し、既存の3D再構成アルゴリズムを拡張した。
論文 参考訳(メタデータ) (2025-06-18T23:44:59Z) - TesserAct: Learning 4D Embodied World Models [66.8519958275311]
我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。
これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
論文 参考訳(メタデータ) (2025-04-29T17:59:30Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。
我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。
定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文 参考訳(メタデータ) (2024-08-15T14:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。