論文の概要: LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding
- arxiv url: http://arxiv.org/abs/2505.12253v1
- Date: Sun, 18 May 2025 06:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.122502
- Title: LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding
- Title(参考訳): LLaVA-4D:4次元シーン理解のための時空間プロンプトをLMMに埋め込む
- Authors: Hanyu Zhou, Gim Hee Lee,
- Abstract要約: 視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。
このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。
4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
- 参考スコア(独自算出の注目度): 55.81291976637705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite achieving significant progress in 2D image understanding, large multimodal models (LMMs) struggle in the physical world due to the lack of spatial representation. Typically, existing 3D LMMs mainly embed 3D positions as fixed spatial prompts within visual features to represent the scene. However, these methods are limited to understanding the static background and fail to capture temporally varying dynamic objects. In this paper, we propose LLaVA-4D, a general LMM framework with a novel spatiotemporal prompt for visual representation in 4D scene understanding. The spatiotemporal prompt is generated by encoding 3D position and 1D time into a dynamic-aware 4D coordinate embedding. Moreover, we demonstrate that spatial and temporal components disentangled from visual features are more effective in distinguishing the background from objects. This motivates embedding the 4D spatiotemporal prompt into these features to enhance the dynamic scene representation. By aligning visual spatiotemporal embeddings with language embeddings, LMMs gain the ability to understand both spatial and temporal characteristics of static background and dynamic objects in the physical world. Additionally, we construct a 4D vision-language dataset with spatiotemporal coordinate annotations for instruction fine-tuning LMMs. Extensive experiments have been conducted to demonstrate the effectiveness of our method across different tasks in 4D scene understanding.
- Abstract(参考訳): 2次元画像理解の進歩にもかかわらず、空間表現の欠如により、大規模マルチモーダルモデル(LMM)は物理的世界に苦戦している。
通常、既存の3D LMMは、主にシーンを表現するために視覚的特徴の中に固定された空間的プロンプトとして3D位置を埋め込む。
しかし、これらの手法は静的背景の理解に限られており、時間的に変化する動的オブジェクトをキャプチャできない。
本稿では、4次元シーン理解における視覚表現のための新しい時空間プロンプトを備えた汎用LMMフレームワークであるLLaVA-4Dを提案する。
動的に認識された4D座標埋め込みに3D位置と1D時間を符号化して時空間プロンプトを生成する。
さらに,視覚特徴から切り離された空間的・時間的成分は,背景と物体を区別する上でより効果的であることを示す。
これにより、4D時空間プロンプトをこれらの特徴に埋め込んで動的なシーン表現を強化することができる。
視覚的時空間埋め込みと言語埋め込みを合わせることで、LMMは物理的世界の静的背景と動的対象の空間的特徴と時間的特性の両方を理解することができる。
さらに,教師用微調整LMMのための時空間座標アノテーションを用いた4次元視覚言語データセットを構築した。
4次元シーン理解において,様々な課題にまたがる手法の有効性を実証するために,大規模な実験を行った。
関連論文リスト
- 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding [83.37551035659119]
4Dオブジェクトを理解する上でのMLLMの能力を評価するために、一般に標準化されたベンチマークは存在しない。
4Dオブジェクト理解におけるMLLMの能力を評価する最初のベンチマークである4D-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-22T17:55:53Z) - 4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models [58.80200897869225]
動的シーンにおいて,時間に依存しない,あるいは時間に敏感なオープン語彙クエリを効率的に処理するために,4D言語フィールドを学習する4D LangSplatを提案する。
4D LangSplatは視覚機能から言語フィールドをバイパスし、オブジェクトワイドビデオキャプションから生成されたテキストから直接学習する。
以上の結果から、4D LangSplatは時間に敏感かつ時間に依存しないオープン語彙クエリに対して,正確かつ効率的な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-03-13T14:58:22Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - 4-LEGS: 4D Language Embedded Gaussian Splatting [12.699978393733309]
3次元ガウシアンティングに基づく4次元表現に時間的特徴を持ち上げる方法を示す。
これにより、ユーザはテキストプロンプトからビデオ内のイベントを時間的にローカライズすることができる。
我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
論文 参考訳(メタデータ) (2024-10-14T17:00:53Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - Real-time Photorealistic Dynamic Scene Representation and Rendering with
4D Gaussian Splatting [8.078460597825142]
2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。
本研究では、4次元プリミティブの集合を明示的な幾何学と外観モデルを用いて最適化することにより、動的シーンの基本的な時間的レンダリング量を近似することを提案する。
我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。
論文 参考訳(メタデータ) (2023-10-16T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。