論文の概要: Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
- arxiv url: http://arxiv.org/abs/2503.20776v1
- Date: Wed, 26 Mar 2025 17:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:07.789624
- Title: Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
- Title(参考訳): Feature4X: モノクロ動画を4DエージェントAIにブリッジする
- Authors: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi,
- Abstract要約: 2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まずビデオファンデーションモデルの機能を、明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では, 幾何学的, 外観的シーンの編集, 蒸留, 自由形VQAなど, まったく新しいビューセグメントを紹介した。
- 参考スコア(独自算出の注目度): 56.184278668305076
- License:
- Abstract: Recent advancements in 2D and multimodal models have achieved remarkable success by leveraging large-scale training on extensive datasets. However, extending these achievements to enable free-form interactions and high-level semantic operations with complex 3D/4D scenes remains challenging. This difficulty stems from the limited availability of large-scale, annotated 3D/4D or multi-view datasets, which are crucial for generalizable vision and language tasks such as open-vocabulary and prompt-based segmentation, language-guided editing, and visual question answering (VQA). In this paper, we introduce Feature4X, a universal framework designed to extend any functionality from 2D vision foundation model into the 4D realm, using only monocular video input, which is widely available from user-generated content. The "X" in Feature4X represents its versatility, enabling any task through adaptable, model-conditioned 4D feature field distillation. At the core of our framework is a dynamic optimization strategy that unifies multiple model capabilities into a single representation. Additionally, to the best of our knowledge, Feature4X is the first method to distill and lift the features of video foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field using Gaussian Splatting. Our experiments showcase novel view segment anything, geometric and appearance scene editing, and free-form VQA across all time steps, empowered by LLMs in feedback loops. These advancements broaden the scope of agentic AI applications by providing a foundation for scalable, contextually and spatiotemporally aware systems capable of immersive dynamic 4D scene interaction.
- Abstract(参考訳): 最近の2Dモデルとマルチモーダルモデルの進歩は、広範囲なデータセットに対する大規模なトレーニングを活用することで、大きな成功を収めている。
しかし、これらの成果を、複雑な3D/4Dシーンによる自由形式の相互作用と高レベルのセマンティック操作を可能にするよう拡張することは、依然として困難である。
これは、オープンボキャブラリやプロンプトベースのセグメンテーション、言語誘導編集、視覚的質問応答(VQA)といった、一般化可能なビジョンや言語タスクに不可欠である。
本稿では,2次元視覚基礎モデルから4次元領域への機能拡張を目的とした汎用フレームワークFeature4Xを紹介する。
Feature4X の "X" はその汎用性を表しており、任意のタスクを適応可能なモデル条件の 4D 特徴体蒸留によって行うことができる。
私たちのフレームワークの中核は、複数のモデル機能を単一の表現に統合する動的な最適化戦略です。
さらに、私たちの知る限りでは、Feature4Xは、ビデオ基盤モデル(SAM2、InternVideo2)の機能をガウススプラッティング(Gaussian Splatting)を使用して明示的な4D機能フィールドに蒸留し、持ち上げる最初の方法です。
実験では,新たなビューセグメント,幾何学的および外観的シーンの編集,およびフィードバックループのLLMによる全時間ステップにわたる自由形式VQAについて紹介した。
これらの進歩は、動的4Dシーンインタラクションを没入可能なスケーラブルで、文脈的に、時空間的に認識されたシステムの基盤を提供することで、エージェントAIアプリケーションの範囲を広げる。
関連論文リスト
- 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。
本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T05:35:57Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。