論文の概要: Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation
- arxiv url: http://arxiv.org/abs/2509.23828v1
- Date: Sun, 28 Sep 2025 12:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.473446
- Title: Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation
- Title(参考訳): Uni4D-LLM:4次元理解・生成のための統合時空間対応VLM
- Authors: Hanyu Zhou, Gim Hee Lee,
- Abstract要約: 既存の3Dおよび4Dアプローチは、通常、シーン幾何学を意味的理解とコンテンツ生成のための拡散モデルのための自己回帰モデルに組み込む。
我々は4次元シーン理解と生成のための時間的認識を備えた最初の統合VLMフレームワークであるUni4D-LLMを提案する。
- 参考スコア(独自算出の注目度): 61.60600246983274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have demonstrated strong performance in 2D scene understanding and generation, but extending this unification to the physical world remains an open challenge. Existing 3D and 4D approaches typically embed scene geometry into autoregressive model for semantic understanding and diffusion model for content generation. This paradigm gap prevents a single model from jointly handling both tasks, especially in dynamic 4D settings where spatiotemporal modeling is critical. We propose Uni4D-LLM, the first unified VLM framework with spatiotemporal awareness for 4D scene understanding and generation. Our design is guided by two key insights: 1) Unification requires a shared representation. We extract semantic features for understanding and noisy-injected appearance features for generation, incorporate 4D geometric cues, and fuse them into a spatiotemporal-aware visual representation through adaptive cross-attention. 2) Unification requires a shared architecture. Both autoregression and diffusion are built on Transformer backbones, and this enables integration into a single LLM with task-specific heads. By aligning visual and linguistic representations, our Uni4D-LLM produces predictions for both understanding and generation within one Transformer-based framework. We further apply instruction fine-tuning on diverse 4D vision-language datasets to improve generalization across tasks. Extensive experiments on multiple benchmarks demonstrate that Uni4D-LLM achieves competitive or superior results compared to state-of-the-art models and offers the first true unification of 4D scene understanding and generation.
- Abstract(参考訳): 視覚言語モデル(VLM)は2次元シーンの理解と生成において強力な性能を示してきたが、この統合を物理世界へ拡張することは依然としてオープンな課題である。
既存の3Dおよび4Dアプローチは、通常、シーン幾何学をセマンティック理解とコンテンツ生成のための拡散モデルのための自己回帰モデルに組み込む。
このパラダイムギャップは、特に時空間モデリングが重要な動的4次元設定において、単一のモデルが両方のタスクを共同で扱うのを防ぐ。
我々は4次元シーン理解と生成のための時空間認識を備えた最初の統合VLMフレームワークであるUni4D-LLMを提案する。
私たちのデザインは2つの重要な洞察で導かれています。
1)統一には共有表現が必要である。
我々は,4次元幾何学的手がかりを取り入れ,適応的横断的意図を通じて時空間的視覚表現に融合する,生成のための意味的特徴とノイズ注入型外観特徴を抽出する。
2) 統一には共有アーキテクチャが必要である。
自動回帰と拡散はトランスフォーマーのバックボーン上に構築されており、タスク固有のヘッドを持つ単一のLSMに統合することができる。
視覚的表現と言語的表現の整合によって、我々のUni4D-LLMは、1つのトランスフォーマーベースのフレームワーク内での理解と生成の両方の予測を生成する。
さらに,タスク間の一般化を改善するために,多種多様な4次元視覚言語データセットを微調整する。
複数のベンチマークでの大規模な実験により、Uni4D-LLMは最先端のモデルと比較して競争力や優れた結果が得られることが示され、4Dシーンの理解と生成の最初の真の統合を提供する。
関連論文リスト
- Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [3.1852855132066673]
現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
論文 参考訳(メタデータ) (2025-08-11T08:55:47Z) - 4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation [66.20991603309054]
本稿では,映像フレームの4次元時間格子と3次元ガウス粒子の時間ステップ毎にフィードフォワードアーキテクチャを用いて計算可能な最初のフレームワークを提案する。
まず,2ストリーム設計において,空間的および時間的注意を連続的に,あるいは並列に行う4次元ビデオ拡散アーキテクチャを解析する。
第2部では、ガウスヘッド、カメラトークン置換アルゴリズム、追加の動的レイヤとトレーニングを導入し、既存の3D再構成アルゴリズムを拡張した。
論文 参考訳(メタデータ) (2025-06-18T23:44:59Z) - Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。