論文の概要: Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos
- arxiv url: http://arxiv.org/abs/2504.04837v1
- Date: Mon, 07 Apr 2025 08:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 20:55:53.703019
- Title: Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos
- Title(参考訳): Uni4D: ポイントクラウドビデオのための統合された自己監視学習フレームワーク
- Authors: Zhi Zuo, Chenyi Zhuang, Zhiqiang Shen, Pan Gao, Jie Qin,
- Abstract要約: 事前学習段階における識別的4次元表現を学習するための,最初の自己異方性MAEを紹介する。
我々は,Uni4Dと呼ぶ全4Dタスクの微調整性能を向上できることを実証した。
- 参考スコア(独自算出の注目度): 48.8325946928959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud video representation learning is primarily built upon the masking strategy in a self-supervised manner. However, the progress is slow due to several significant challenges: (1) existing methods learn the motion particularly with hand-crafted designs, leading to unsatisfactory motion patterns during pre-training which are non-transferable on fine-tuning scenarios. (2) previous Masked AutoEncoder (MAE) frameworks are limited in resolving the huge representation gap inherent in 4D data. In this study, we introduce the first self-disentangled MAE for learning discriminative 4D representations in the pre-training stage. To address the first challenge, we propose to model the motion representation in a latent space. The second issue is resolved by introducing the latent tokens along with the typical geometry tokens to disentangle high-level and low-level features during decoding. Extensive experiments on MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, and SHREC'17 verify this self-disentangled learning framework. We demonstrate that it can boost the fine-tuning performance on all 4D tasks, which we term Uni4D. Our pre-trained model presents discriminative and meaningful 4D representations, particularly benefits processing long videos, as Uni4D gets $+3.8\%$ segmentation accuracy on HOI4D, significantly outperforming either self-supervised or fully-supervised methods after end-to-end fine-tuning.
- Abstract(参考訳): ポイントクラウドビデオ表現学習は、主に自己教師型のマスキング戦略に基づいて構築されている。
1) 既存の手法は手作りデザインで特に動きを学習し、微調整のシナリオでは伝達不能な事前学習中に不満足な動きパターンをもたらす。
2) 従来のMasked AutoEncoder(MAE)フレームワークは、4Dデータに固有の巨大な表現ギャップを解決するのに限られていた。
本研究では,事前学習段階における識別的4次元表現を学習するための,最初の自己距離MAEを紹介する。
最初の課題に対処するために、潜在空間における動きの表現をモデル化することを提案する。
2つ目の問題は、遅延トークンと典型的な幾何トークンを導入して、デコード中に高レベルと低レベルの特徴を歪めることによって解決される。
MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, SHREC'17の大規模な実験により, この自己分散学習フレームワークが検証された。
われわれは,Uni4Dと呼ぶ全4Dタスクの微調整性能を向上できることを実証した。
我々の事前訓練されたモデルは差別的で有意義な4D表現を示し、特に長いビデオの処理に有用である。
関連論文リスト
- Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。
このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。
実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文 参考訳(メタデータ) (2025-03-26T17:56:16Z) - Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene [122.42861221739123]
本稿では,リッチな2次元視覚シーンアノテーションを活用して4次元シーン学習を促進する4D-PSG生成のための新しいフレームワークについて検討する。
本研究では,2次元SGアノテーションから4次元シーンへ空間的時間的特徴を効果的に伝達する2次元から4次元の視覚的シーン伝達学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T09:16:08Z) - AR4D: Autoregressive 4D Generation from Monocular Videos [27.61057927559143]
既存のアプローチは主に、ノベルビューの動画を推測するためにスコア蒸留サンプリングに依存している。
SDSフリー4D生成のための新しいパラダイムであるAR4Dを提案する。
我々は,AR4DがSDSを使わずに最先端の4D生成を実現し,多様性の向上,空間的時間的整合性の向上,入力プロンプトとの整合性の向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-01-03T09:27:36Z) - Scaling 4D Representations [77.85462796134455]
ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。
本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-12-19T18:59:51Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。