論文の概要: VG4D: Vision-Language Model Goes 4D Video Recognition
- arxiv url: http://arxiv.org/abs/2404.11605v1
- Date: Wed, 17 Apr 2024 17:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-18 12:56:30.585363
- Title: VG4D: Vision-Language Model Goes 4D Video Recognition
- Title(参考訳): VG4D:ビジョンランゲージモデルで4Dビデオ認識が可能に
- Authors: Zhichao Deng, Xiangtai Li, Xia Li, Yunhai Tong, Shen Zhao, Mengyuan Liu,
- Abstract要約: Webスケールのテキストイメージデータセットで事前トレーニングされた視覚言語モデル(VLM)は、きめ細かい視覚概念を学習することができる。
視覚テキスト事前学習モデルから4DポイントクラウドネットワークへVLMの知識を伝達するためのビジョンランゲージモデル Goes 4D (VG4D) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.98194339741201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the real world through point cloud video is a crucial aspect of robotics and autonomous driving systems. However, prevailing methods for 4D point cloud recognition have limitations due to sensor resolution, which leads to a lack of detailed information. Recent advances have shown that Vision-Language Models (VLM) pre-trained on web-scale text-image datasets can learn fine-grained visual concepts that can be transferred to various downstream tasks. However, effectively integrating VLM into the domain of 4D point clouds remains an unresolved problem. In this work, we propose the Vision-Language Models Goes 4D (VG4D) framework to transfer VLM knowledge from visual-text pre-trained models to a 4D point cloud network. Our approach involves aligning the 4D encoder's representation with a VLM to learn a shared visual and text space from training on large-scale image-text pairs. By transferring the knowledge of the VLM to the 4D encoder and combining the VLM, our VG4D achieves improved recognition performance. To enhance the 4D encoder, we modernize the classic dynamic point cloud backbone and propose an improved version of PSTNet, im-PSTNet, which can efficiently model point cloud videos. Experiments demonstrate that our method achieves state-of-the-art performance for action recognition on both the NTU RGB+D 60 dataset and the NTU RGB+D 120 dataset. Code is available at \url{https://github.com/Shark0-0/VG4D}.
- Abstract(参考訳): ポイントクラウドビデオを通して現実世界を理解することは、ロボット工学と自動運転システムにとって重要な側面である。
しかし、4Dポイントクラウド認識の一般的な方法は、センサーの解像度に制限があるため、詳細な情報が不足している。
近年の進歩は、Webスケールのテキスト画像データセットで事前訓練された視覚言語モデル(VLM)が、様々な下流タスクに転送可能な、きめ細かい視覚概念を学習できることを示している。
しかし、4次元点雲の領域にVLMを効果的に統合することは未解決の問題である。
本研究では、視覚テキスト事前学習モデルから4Dポイント・クラウド・ネットワークへVLMの知識を伝達するためのビジョン・ランゲージ・モデル Goes 4D (VG4D) フレームワークを提案する。
我々のアプローチでは、4Dエンコーダの表現をVLMに合わせることで、大規模な画像テキストペアのトレーニングから共有された視覚空間とテキスト空間を学習する。
VLMの知識を4Dエンコーダに転送し、VLMを組み合わせることで、VG4Dは認識性能を向上させる。
4Dエンコーダを強化するため,従来のダイナミックポイントクラウドバックボーンを近代化し,PSTNetの改良版であるim-PSTNetを提案する。
実験により,NTU RGB+D 60データセットとNTU RGB+D 120データセットの両方において,動作認識のための最先端性能が得られた。
コードは \url{https://github.com/Shark0-0/VG4D} で入手できる。
関連論文リスト
- VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。
当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。
これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文 参考訳(メタデータ) (2026-01-08T17:28:52Z) - SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead [56.74139420555097]
設計効率を保ちつつ、4次元理解でコンパクトなモデルを強化するアーキテクチャであるSwiftVLAを提案する。
提案手法は,2次元画像から4次元特徴を抽出する時間キャッシュを備えた,事前訓練された4次元視覚幾何学変換器を備える。
実環境とシミュレートされた環境での実験では、SwiftVLAは軽量のベースラインよりも優れており、ライバルのVLAは最大7倍も大きい。
論文 参考訳(メタデータ) (2025-11-30T14:10:28Z) - AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes [63.055387623861094]
最近のテキスト・トゥ・ビデオ(T2V)モデルは、実世界の幾何学と物理法則の視覚シミュレーションにおいて強力な能力を示している。
本稿では,事前学習したT2Vモデルを用いて視点予測を行うための2段階のパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-12T15:55:44Z) - Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.488763757826426]
2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。
近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。
人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:59Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving
Representation Learning [38.6654451726187]
MIM4Dはデュアルマスク画像モデリング(MIM)に基づく新しい事前学習パラダイムである
連続的なシーンフローを用いて擬似3D機能を構築し、2次元平面上に投影して監督する。
自動運転における視覚的表現学習のためのnuScenesデータセット上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-13T17:58:00Z) - X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-12T15:48:12Z) - Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost
3D Point Cloud Data-scarce Learning? [38.06639044139636]
本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。
MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
論文 参考訳(メタデータ) (2023-04-20T11:39:41Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。