論文の概要: Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
- arxiv url: http://arxiv.org/abs/2503.20776v2
- Date: Fri, 28 Mar 2025 04:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 13:02:49.663069
- Title: Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
- Title(参考訳): Feature4X: モノクロ動画を4DエージェントAIにブリッジする
- Authors: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi,
- Abstract要約: 2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
- 参考スコア(独自算出の注目度): 56.184278668305076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in 2D and multimodal models have achieved remarkable success by leveraging large-scale training on extensive datasets. However, extending these achievements to enable free-form interactions and high-level semantic operations with complex 3D/4D scenes remains challenging. This difficulty stems from the limited availability of large-scale, annotated 3D/4D or multi-view datasets, which are crucial for generalizable vision and language tasks such as open-vocabulary and prompt-based segmentation, language-guided editing, and visual question answering (VQA). In this paper, we introduce Feature4X, a universal framework designed to extend any functionality from 2D vision foundation model into the 4D realm, using only monocular video input, which is widely available from user-generated content. The "X" in Feature4X represents its versatility, enabling any task through adaptable, model-conditioned 4D feature field distillation. At the core of our framework is a dynamic optimization strategy that unifies multiple model capabilities into a single representation. Additionally, to the best of our knowledge, Feature4X is the first method to distill and lift the features of video foundation models (e.g., SAM2, InternVideo2) into an explicit 4D feature field using Gaussian Splatting. Our experiments showcase novel view segment anything, geometric and appearance scene editing, and free-form VQA across all time steps, empowered by LLMs in feedback loops. These advancements broaden the scope of agentic AI applications by providing a foundation for scalable, contextually and spatiotemporally aware systems capable of immersive dynamic 4D scene interaction.
- Abstract(参考訳): 最近の2Dモデルとマルチモーダルモデルの進歩は、広範囲なデータセットに対する大規模なトレーニングを活用することで、大きな成功を収めている。
しかし、これらの成果を、複雑な3D/4Dシーンによる自由形式の相互作用と高レベルのセマンティック操作を可能にするよう拡張することは、依然として困難である。
これは、オープンボキャブラリやプロンプトベースのセグメンテーション、言語誘導編集、視覚的質問応答(VQA)といった、一般化可能なビジョンや言語タスクに不可欠である。
本稿では,2次元視覚基礎モデルから4次元領域への機能拡張を目的とした汎用フレームワークFeature4Xを紹介する。
Feature4X の "X" はその汎用性を表しており、任意のタスクを適応可能なモデル条件の 4D 特徴体蒸留によって行うことができる。
私たちのフレームワークの中核は、複数のモデル機能を単一の表現に統合する動的な最適化戦略です。
さらに、私たちの知る限りでは、Feature4Xは、ビデオ基盤モデル(SAM2、InternVideo2)の機能をガウススプラッティング(Gaussian Splatting)を使用して明示的な4D機能フィールドに蒸留し、持ち上げる最初の方法です。
実験では,新たなビューセグメント,幾何学的および外観的シーンの編集,およびフィードバックループのLLMによる全時間ステップにわたる自由形式VQAについて紹介した。
これらの進歩は、動的4Dシーンインタラクションを没入可能なスケーラブルで、文脈的に、時空間的に認識されたシステムの基盤を提供することで、エージェントAIアプリケーションの範囲を広げる。
関連論文リスト
- Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [48.8325946928959]
事前学習段階における識別的4次元表現を学習するための,最初の自己異方性MAEを紹介する。
我々は,Uni4Dと呼ぶ全4Dタスクの微調整性能を向上できることを実証した。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization [31.956858341885436]
Video4DGenは、単一または複数の生成されたビデオから4D表現を生成するのに優れている新しいフレームワークである。
Video4DGenは、仮想現実、アニメーションなどにおけるアプリケーションのための強力なツールを提供する。
論文 参考訳(メタデータ) (2025-04-05T12:13:05Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene [122.42861221739123]
本稿では,リッチな2次元視覚シーンアノテーションを活用して4次元シーン学習を促進する4D-PSG生成のための新しいフレームワークについて検討する。
本研究では,2次元SGアノテーションから4次元シーンへ空間的時間的特徴を効果的に伝達する2次元から4次元の視覚的シーン伝達学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T09:16:08Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。
本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T05:35:57Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。