Fugu-MT 論文翻訳(概要): Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video

論文の概要: Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video

arxiv url: http://arxiv.org/abs/2503.21761v1
Date: Thu, 27 Mar 2025 17:57:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.650303
Title: Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video
Title（参考訳）: Uni4D: 単一のビデオから4DモデリングのためのVisual Foundationモデルを統合する
Authors: David Yifan Yao, Albert J. Zhai, Shenlong Wang,
Abstract要約: マルチステージ最適化フレームワークであるUni4Dを導入し,複数の事前学習モデルを用いて動的3Dモデリングを行う。その結果,動的4次元モデリングにおける視覚的品質の優れた最先端性能が示された。
参考スコア（独自算出の注目度）: 12.283639677279645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a unified approach to understanding dynamic scenes from casual videos. Large pretrained vision foundation models, such as vision-language, video depth prediction, motion tracking, and segmentation models, offer promising capabilities. However, training a single model for comprehensive 4D understanding remains challenging. We introduce Uni4D, a multi-stage optimization framework that harnesses multiple pretrained models to advance dynamic 3D modeling, including static/dynamic reconstruction, camera pose estimation, and dense 3D motion tracking. Our results show state-of-the-art performance in dynamic 4D modeling with superior visual quality. Notably, Uni4D requires no retraining or fine-tuning, highlighting the effectiveness of repurposing visual foundation models for 4D understanding.
Abstract（参考訳）: 本稿では,カジュアルビデオから動的シーンを理解するための統一的なアプローチを提案する。視覚言語、ビデオ深度予測、モーショントラッキング、セグメンテーションモデルなどの大規模な事前訓練された視覚基盤モデルは、有望な機能を提供する。しかし、総合的な4D理解のために単一のモデルをトレーニングすることは依然として困難である。静的/動的再構成,カメラポーズ推定,高密度3Dモーショントラッキングなど,複数の事前学習モデルを用いて動的3Dモデリングを行うマルチステージ最適化フレームワークであるUni4Dを紹介する。視覚的品質の優れた動的4次元モデリングにおける最先端性能を示す。注目すべきなのは、Uni4Dはトレーニングや微調整を必要とせず、4D理解のための視覚基盤モデルを再購入する効果を強調している点だ。

関連論文リスト

VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文参考訳（メタデータ） (2026-01-08T17:28:52Z)
DynaPose4D: High-Quality 4D Dynamic Content Generation via Pose Alignment Loss [5.644194272935956]
DynaPose4Dは、単一の静的画像から高品質な4D動的コンテンツを生成するフレームワークである。その結果,DynaPose4Dは動的運動生成において優れたコヒーレンス,一貫性,流動性が得られた。
論文参考訳（メタデータ） (2025-10-26T01:11:13Z)
4DNeX: Feed-Forward 4D Generative Modeling Made Easy [51.79072580042173]
1つの画像から4D(動的3D)シーン表現を生成するための最初のフィードフォワードフレームワークである4DNeXを提案する。計算集約的な最適化やマルチフレームビデオ入力を必要とする既存の方法とは対照的に、4DNeXは効率的でエンドツーエンドの画像から4D生成を可能にする。
論文参考訳（メタデータ） (2025-08-18T17:59:55Z)
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文参考訳（メタデータ） (2024-11-27T18:57:16Z)
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文参考訳（メタデータ） (2024-07-24T17:59:43Z)
Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T05:35:57Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文参考訳（メタデータ） (2024-03-25T17:55:52Z)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳（メタデータ） (2024-01-16T18:58:36Z)
Animate124: Animating One Image to 4D Dynamic Scene [108.17635645216214]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文参考訳（メタデータ） (2023-11-24T16:47:05Z)
H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文参考訳（メタデータ） (2022-03-02T17:10:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。