論文の概要: Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos
- arxiv url: http://arxiv.org/abs/2504.04837v2
- Date: Tue, 20 May 2025 07:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 19:22:16.85325
- Title: Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos
- Title(参考訳): Uni4D: ポイントクラウドビデオのための統合された自己監視学習フレームワーク
- Authors: Zhi Zuo, Chenyi Zhuang, Pan Gao, Jie Qin, Hao Feng, Nicu Sebe,
- Abstract要約: 既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
- 参考スコア(独自算出の注目度): 70.07088203106443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning for point cloud videos remains a challenging problem with two key limitations: (1) existing methods rely on explicit knowledge to learn motion, resulting in suboptimal representations; (2) prior Masked AutoEncoder (MAE) frameworks struggle to bridge the gap between low-level geometry and high-level dynamics in 4D data. In this work, we propose a novel self-disentangled MAE for learning expressive, discriminative, and transferable 4D representations. To overcome the first limitation, we learn motion by aligning high-level semantics in the latent space \textit{without any explicit knowledge}. To tackle the second, we introduce a \textit{self-disentangled learning} strategy that incorporates the latent token with the geometry token within a shared decoder, effectively disentangling low-level geometry and high-level semantics. In addition to the reconstruction objective, we employ three alignment objectives to enhance temporal understanding, including frame-level motion and video-level global information. We show that our pre-trained encoder surprisingly discriminates spatio-temporal representation without further fine-tuning. Extensive experiments on MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, and SHREC'17 demonstrate the superiority of our approach in both coarse-grained and fine-grained 4D downstream tasks. Notably, Uni4D improves action segmentation accuracy on HOI4D by $+3.8\%$.
- Abstract(参考訳): 1) 既存の手法は動きを学習するための明示的な知識に依存しており、その結果、最適な表現をもたらす。(2) 以前のMasked AutoEncoder (MAE) フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本研究では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
最初の制限を克服するために、我々は潜在空間 \textit{without any explicit knowledge} の高次意味論を整列させることで運動を学ぶ。
第二に、共有デコーダ内に潜在トークンと幾何学トークンを組み込んだ「textit{self-disentangled learning}」戦略を導入し、低レベルの幾何学と高レベルの意味論を効果的に解き放つ。
再建目的に加えて,フレームレベルの動きや映像レベルのグローバル情報など,時間的理解を高めるために3つのアライメント目的を用いる。
事前学習したエンコーダは、さらに微調整をすることなく、時空間表現を驚くほど区別できることが示される。
MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, SHREC'17の広範囲な実験により, 粗粒度および細粒度の4D下流タスクにおけるアプローチの優位性が示された。
特に、Uni4DはHOI4Dのアクションセグメンテーション精度を$+3.8\%$で改善している。
関連論文リスト
- OpenHuman4D: Open-Vocabulary 4D Human Parsing [7.533936292165496]
推論時間を短縮し,オープン語彙機能を導入する,最初の4Dヒューマンパーシングフレームワークを紹介する。
最先端のオープン・ボキャブラリーな3D人間のパース技術に基づいて、我々のアプローチは4Dの人間中心のビデオへのサポートを拡大する。
論文 参考訳(メタデータ) (2025-07-14T03:35:06Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z) - Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene [122.42861221739123]
本稿では,リッチな2次元視覚シーンアノテーションを活用して4次元シーン学習を促進する4D-PSG生成のための新しいフレームワークについて検討する。
本研究では,2次元SGアノテーションから4次元シーンへ空間的時間的特徴を効果的に伝達する2次元から4次元の視覚的シーン伝達学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T09:16:08Z) - AR4D: Autoregressive 4D Generation from Monocular Videos [27.61057927559143]
既存のアプローチは主に、ノベルビューの動画を推測するためにスコア蒸留サンプリングに依存している。
SDSフリー4D生成のための新しいパラダイムであるAR4Dを提案する。
我々は,AR4DがSDSを使わずに最先端の4D生成を実現し,多様性の向上,空間的時間的整合性の向上,入力プロンプトとの整合性の向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-01-03T09:27:36Z) - GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.488763757826426]
2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。
近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。
人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:59Z) - Scaling 4D Representations [77.85462796134455]
ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。
本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-12-19T18:59:51Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-12T15:48:12Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。