論文の概要: 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
- arxiv url: http://arxiv.org/abs/2512.05060v1
- Date: Thu, 04 Dec 2025 18:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.313186
- Title: 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer
- Title(参考訳): 4DLangVGGT: 4次元言語・ビジュアル幾何接地変圧器
- Authors: Xianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang,
- Abstract要約: 4DVGTは、トランスフォーマーベースの最初の4D言語グラウンドのためのフィードフォワード統合フレームワークである。
幾何学的知覚と言語アライメントを単一のアーキテクチャに統合する。
複数のダイナミックシーンを共同でトレーニングし、推論中に直接適用することができる。
- 参考スコア(独自算出の注目度): 40.29321632546414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing 4D language fields is crucial for embodied AI, augmented/virtual reality, and 4D scene understanding, as they provide enriched semantic representations of dynamic environments and enable open-vocabulary querying in complex scenarios. However, existing approaches to 4D semantic field construction primarily rely on scene-specific Gaussian splatting, which requires per-scene optimization, exhibits limited generalization, and is difficult to scale to real-world applications. To address these limitations, we propose 4DLangVGGT, the first Transformer-based feed-forward unified framework for 4D language grounding, that jointly integrates geometric perception and language alignment within a single architecture. 4DLangVGGT has two key components: the 4D Visual Geometry Transformer, StreamVGGT, which captures spatio-temporal geometric representations of dynamic scenes; and the Semantic Bridging Decoder (SBD), which projects geometry-aware features into a language-aligned semantic space, thereby enhancing semantic interpretability while preserving structural fidelity. Unlike prior methods that depend on costly per-scene optimization, 4DLangVGGT can be jointly trained across multiple dynamic scenes and directly applied during inference, achieving both deployment efficiency and strong generalization. This design significantly improves the practicality of large-scale deployment and establishes a new paradigm for open-vocabulary 4D scene understanding. Experiments on HyperNeRF and Neu3D datasets demonstrate that our approach not only generalizes effectively but also achieves state-of-the-art performance, achieving up to 2% gains under per-scene training and 1% improvements under multi-scene training. Our code released in https://github.com/hustvl/4DLangVGGT
- Abstract(参考訳): 動的環境の豊かなセマンティック表現を提供し、複雑なシナリオでのオープン語彙クエリを可能にするため、4D言語フィールドの構築は、AI、拡張現実/仮想現実、および4Dシーン理解にとって不可欠である。
しかし、既存の4Dセマンティックフィールドの構築手法は主にシーン固有のガウススプラッティングに依存しており、シーンごとの最適化が必要であり、限定的な一般化を示し、現実のアプリケーションにスケールすることが困難である。
これらの制約に対処するため,トランスフォーマーを用いた最初の4次元言語接地のためのフィードフォワード統合フレームワークである4DLangVGGTを提案する。
4DLangVGGTには、動的シーンの時空間的表現をキャプチャする4D Visual Geometry Transformer、StreamVGGT、幾何学的特徴を言語対応の意味空間に投影するSemantic Bridging Decoder(SBD)の2つの重要なコンポーネントがある。
コストのかかるシーンごとの最適化に頼っている従来の方法とは異なり、4DLangVGGTは複数の動的シーンで共同でトレーニングでき、推論中に直接適用でき、デプロイメント効率と強力な一般化を実現することができる。
この設計は大規模展開の実用性を大幅に向上させ、オープンな4Dシーン理解のための新しいパラダイムを確立する。
HyperNeRFとNeu3Dデータセットの実験は、我々のアプローチが効果的に一般化するだけでなく、最先端のパフォーマンスも達成し、シーン毎のトレーニングでは最大2%、マルチシーントレーニングでは1%の改善を実現していることを示している。
https://github.com/hustvl/4DLangVGTでリリースされたコード
関連論文リスト
- Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation [61.60600246983274]
既存の3Dおよび4Dアプローチは、通常、シーン幾何学を意味的理解とコンテンツ生成のための拡散モデルのための自己回帰モデルに組み込む。
我々は4次元シーン理解と生成のための時間的認識を備えた最初の統合VLMフレームワークであるUni4D-LLMを提案する。
論文 参考訳(メタデータ) (2025-09-28T12:06:54Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。