論文の概要: Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos
- arxiv url: http://arxiv.org/abs/2504.04837v2
- Date: Tue, 20 May 2025 07:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 19:22:16.85325
- Title: Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos
- Title(参考訳): Uni4D: ポイントクラウドビデオのための統合された自己監視学習フレームワーク
- Authors: Zhi Zuo, Chenyi Zhuang, Pan Gao, Jie Qin, Hao Feng, Nicu Sebe,
- Abstract要約: 既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
- 参考スコア(独自算出の注目度): 70.07088203106443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning for point cloud videos remains a challenging problem with two key limitations: (1) existing methods rely on explicit knowledge to learn motion, resulting in suboptimal representations; (2) prior Masked AutoEncoder (MAE) frameworks struggle to bridge the gap between low-level geometry and high-level dynamics in 4D data. In this work, we propose a novel self-disentangled MAE for learning expressive, discriminative, and transferable 4D representations. To overcome the first limitation, we learn motion by aligning high-level semantics in the latent space \textit{without any explicit knowledge}. To tackle the second, we introduce a \textit{self-disentangled learning} strategy that incorporates the latent token with the geometry token within a shared decoder, effectively disentangling low-level geometry and high-level semantics. In addition to the reconstruction objective, we employ three alignment objectives to enhance temporal understanding, including frame-level motion and video-level global information. We show that our pre-trained encoder surprisingly discriminates spatio-temporal representation without further fine-tuning. Extensive experiments on MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, and SHREC'17 demonstrate the superiority of our approach in both coarse-grained and fine-grained 4D downstream tasks. Notably, Uni4D improves action segmentation accuracy on HOI4D by $+3.8\%$.
- Abstract(参考訳): 1) 既存の手法は動きを学習するための明示的な知識に依存しており、その結果、最適な表現をもたらす。(2) 以前のMasked AutoEncoder (MAE) フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本研究では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
最初の制限を克服するために、我々は潜在空間 \textit{without any explicit knowledge} の高次意味論を整列させることで運動を学ぶ。
第二に、共有デコーダ内に潜在トークンと幾何学トークンを組み込んだ「textit{self-disentangled learning}」戦略を導入し、低レベルの幾何学と高レベルの意味論を効果的に解き放つ。
再建目的に加えて,フレームレベルの動きや映像レベルのグローバル情報など,時間的理解を高めるために3つのアライメント目的を用いる。
事前学習したエンコーダは、さらに微調整をすることなく、時空間表現を驚くほど区別できることが示される。
MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, SHREC'17の広範囲な実験により, 粗粒度および細粒度の4D下流タスクにおけるアプローチの優位性が示された。
特に、Uni4DはHOI4Dのアクションセグメンテーション精度を$+3.8\%$で改善している。
関連論文リスト
- Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z) - Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene [122.42861221739123]
本稿では,リッチな2次元視覚シーンアノテーションを活用して4次元シーン学習を促進する4D-PSG生成のための新しいフレームワークについて検討する。
本研究では,2次元SGアノテーションから4次元シーンへ空間的時間的特徴を効果的に伝達する2次元から4次元の視覚的シーン伝達学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T09:16:08Z) - AR4D: Autoregressive 4D Generation from Monocular Videos [27.61057927559143]
既存のアプローチは主に、ノベルビューの動画を推測するためにスコア蒸留サンプリングに依存している。
SDSフリー4D生成のための新しいパラダイムであるAR4Dを提案する。
我々は,AR4DがSDSを使わずに最先端の4D生成を実現し,多様性の向上,空間的時間的整合性の向上,入力プロンプトとの整合性の向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-01-03T09:27:36Z) - Scaling 4D Representations [77.85462796134455]
ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。
本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-12-19T18:59:51Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。