論文の概要: VG4D: Vision-Language Model Goes 4D Video Recognition
- arxiv url: http://arxiv.org/abs/2404.11605v1
- Date: Wed, 17 Apr 2024 17:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 12:56:30.585363
- Title: VG4D: Vision-Language Model Goes 4D Video Recognition
- Title(参考訳): VG4D:ビジョンランゲージモデルで4Dビデオ認識が可能に
- Authors: Zhichao Deng, Xiangtai Li, Xia Li, Yunhai Tong, Shen Zhao, Mengyuan Liu,
- Abstract要約: Webスケールのテキストイメージデータセットで事前トレーニングされた視覚言語モデル(VLM)は、きめ細かい視覚概念を学習することができる。
視覚テキスト事前学習モデルから4DポイントクラウドネットワークへVLMの知識を伝達するためのビジョンランゲージモデル Goes 4D (VG4D) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.98194339741201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the real world through point cloud video is a crucial aspect of robotics and autonomous driving systems. However, prevailing methods for 4D point cloud recognition have limitations due to sensor resolution, which leads to a lack of detailed information. Recent advances have shown that Vision-Language Models (VLM) pre-trained on web-scale text-image datasets can learn fine-grained visual concepts that can be transferred to various downstream tasks. However, effectively integrating VLM into the domain of 4D point clouds remains an unresolved problem. In this work, we propose the Vision-Language Models Goes 4D (VG4D) framework to transfer VLM knowledge from visual-text pre-trained models to a 4D point cloud network. Our approach involves aligning the 4D encoder's representation with a VLM to learn a shared visual and text space from training on large-scale image-text pairs. By transferring the knowledge of the VLM to the 4D encoder and combining the VLM, our VG4D achieves improved recognition performance. To enhance the 4D encoder, we modernize the classic dynamic point cloud backbone and propose an improved version of PSTNet, im-PSTNet, which can efficiently model point cloud videos. Experiments demonstrate that our method achieves state-of-the-art performance for action recognition on both the NTU RGB+D 60 dataset and the NTU RGB+D 120 dataset. Code is available at \url{https://github.com/Shark0-0/VG4D}.
- Abstract(参考訳): ポイントクラウドビデオを通して現実世界を理解することは、ロボット工学と自動運転システムにとって重要な側面である。
しかし、4Dポイントクラウド認識の一般的な方法は、センサーの解像度に制限があるため、詳細な情報が不足している。
近年の進歩は、Webスケールのテキスト画像データセットで事前訓練された視覚言語モデル(VLM)が、様々な下流タスクに転送可能な、きめ細かい視覚概念を学習できることを示している。
しかし、4次元点雲の領域にVLMを効果的に統合することは未解決の問題である。
本研究では、視覚テキスト事前学習モデルから4Dポイント・クラウド・ネットワークへVLMの知識を伝達するためのビジョン・ランゲージ・モデル Goes 4D (VG4D) フレームワークを提案する。
我々のアプローチでは、4Dエンコーダの表現をVLMに合わせることで、大規模な画像テキストペアのトレーニングから共有された視覚空間とテキスト空間を学習する。
VLMの知識を4Dエンコーダに転送し、VLMを組み合わせることで、VG4Dは認識性能を向上させる。
4Dエンコーダを強化するため,従来のダイナミックポイントクラウドバックボーンを近代化し,PSTNetの改良版であるim-PSTNetを提案する。
実験により,NTU RGB+D 60データセットとNTU RGB+D 120データセットの両方において,動作認識のための最先端性能が得られた。
コードは \url{https://github.com/Shark0-0/VG4D} で入手できる。
関連論文リスト
- VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving
Representation Learning [38.6654451726187]
MIM4Dはデュアルマスク画像モデリング(MIM)に基づく新しい事前学習パラダイムである
連続的なシーンフローを用いて擬似3D機能を構築し、2次元平面上に投影して監督する。
自動運転における視覚的表現学習のためのnuScenesデータセット上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-13T17:58:00Z) - X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-12T15:48:12Z) - Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost
3D Point Cloud Data-scarce Learning? [38.06639044139636]
本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。
MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
論文 参考訳(メタデータ) (2023-04-20T11:39:41Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。