論文の概要: 4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10437v1
- Date: Thu, 13 Mar 2025 14:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:40.873523
- Title: 4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models
- Title(参考訳): 4D LangSplat:マルチモーダル大言語モデルによる4D言語ガウススプラッティング
- Authors: Wanhua Li, Renping Zhou, Jiawei Zhou, Yingwei Song, Johannes Herter, Minghan Qin, Gao Huang, Hanspeter Pfister,
- Abstract要約: 動的シーンにおいて,時間に依存しない,あるいは時間に敏感なオープン語彙クエリを効率的に処理するために,4D言語フィールドを学習する4D LangSplatを提案する。
4D LangSplatは視覚機能から言語フィールドをバイパスし、オブジェクトワイドビデオキャプションから生成されたテキストから直接学習する。
以上の結果から、4D LangSplatは時間に敏感かつ時間に依存しないオープン語彙クエリに対して,正確かつ効率的な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 58.80200897869225
- License:
- Abstract: Learning 4D language fields to enable time-sensitive, open-ended language queries in dynamic scenes is essential for many real-world applications. While LangSplat successfully grounds CLIP features into 3D Gaussian representations, achieving precision and efficiency in 3D static scenes, it lacks the ability to handle dynamic 4D fields as CLIP, designed for static image-text tasks, cannot capture temporal dynamics in videos. Real-world environments are inherently dynamic, with object semantics evolving over time. Building a precise 4D language field necessitates obtaining pixel-aligned, object-wise video features, which current vision models struggle to achieve. To address these challenges, we propose 4D LangSplat, which learns 4D language fields to handle time-agnostic or time-sensitive open-vocabulary queries in dynamic scenes efficiently. 4D LangSplat bypasses learning the language field from vision features and instead learns directly from text generated from object-wise video captions via Multimodal Large Language Models (MLLMs). Specifically, we propose a multimodal object-wise video prompting method, consisting of visual and text prompts that guide MLLMs to generate detailed, temporally consistent, high-quality captions for objects throughout a video. These captions are encoded using a Large Language Model into high-quality sentence embeddings, which then serve as pixel-aligned, object-specific feature supervision, facilitating open-vocabulary text queries through shared embedding spaces. Recognizing that objects in 4D scenes exhibit smooth transitions across states, we further propose a status deformable network to model these continuous changes over time effectively. Our results across multiple benchmarks demonstrate that 4D LangSplat attains precise and efficient results for both time-sensitive and time-agnostic open-vocabulary queries.
- Abstract(参考訳): 動的シーンにおいて、時間に敏感でオープンな言語クエリを可能にするために、4D言語フィールドを学ぶことは、多くの現実世界アプリケーションにとって不可欠である。
LangSplatはCLIP機能を3Dガウス表現にグルーピングすることに成功し、3D静的シーンで精度と効率を達成するが、静的な画像テキストタスク用に設計されたCLIPのように動的4Dフィールドを処理できないため、ビデオの時間的ダイナミクスをキャプチャできない。
現実世界の環境は本質的に動的であり、オブジェクトの意味論は時間とともに進化する。
正確な4D言語フィールドを構築するには、現在のビジョンモデルが達成に苦しむピクセル対応のオブジェクト指向ビデオ機能を取得する必要がある。
これらの課題に対処するために、4D LangSplatを提案し、動的シーンにおける時間に依存しない、あるいは時間に敏感なオープン語彙クエリを効率的に処理するために、4D言語フィールドを学習する。
4D LangSplatは視覚的特徴から言語分野をバイパスし、マルチモーダル大言語モデル(MLLM)を介してオブジェクトワイズビデオキャプションから生成されたテキストから直接学習する。
具体的には、MLLMを誘導する視覚的およびテキスト的プロンプトからなるマルチモーダルなオブジェクト・ワイド・ビデオ・プロンプト手法を提案する。
これらのキャプションは、Large Language Modelを使って高品質な文埋め込みにエンコードされ、ピクセル整列されたオブジェクト固有の機能管理として機能し、共有埋め込み空間を通じてオープン語彙のテキストクエリを容易にする。
4Dシーンのオブジェクトが状態間のスムーズな遷移を示すことを認識し、これらの連続的な変化を効果的にモデル化するための状態変形可能なネットワークを提案する。
複数のベンチマークで比較した結果, 4D LangSplat は時間に敏感かつ時間に依存しないオープン語彙クエリに対して, 正確かつ効率的な結果が得られることがわかった。
関連論文リスト
- g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - 4-LEGS: 4D Language Embedded Gaussian Splatting [12.699978393733309]
3次元ガウシアンティングに基づく4次元表現に時間的特徴を持ち上げる方法を示す。
これにより、ユーザはテキストプロンプトからビデオ内のイベントを時間的にローカライズすることができる。
我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
論文 参考訳(メタデータ) (2024-10-14T17:00:53Z) - PiTe: Pixel-Temporal Alignment for Large Video-Language Model [40.76776645042339]
最近のLVidLM(Large Video-Language Models)は、画像のような静的な視覚データを言語機能の潜在空間に整列させる。
提案するLVidLMは,PiTeと呼ばれるトラジェクトリ誘導型Pixel-Temporal Alignmentによって実現可能なモデル特性を示す。
論文 参考訳(メタデータ) (2024-09-11T12:53:07Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - LangSplat: 3D Language Gaussian Splatting [42.16849512832556]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - LERF: Language Embedded Radiance Fields [35.925752853115476]
Language Embedded Radiance Fields (LERF) は、CLIPのような市販のモデルからNeRFへの言語埋め込みを基盤とする手法である。
LERFは、トレーニング線に沿ってCLIP埋め込みをボリュームレンダリングすることで、NeRF内の密集したマルチスケール言語フィールドを学習する。
最適化後、LERFは広範囲の言語プロンプトに対してリアルタイムに3D関連性マップを抽出できる。
論文 参考訳(メタデータ) (2023-03-16T17:59:20Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。