Fugu-MT 論文翻訳(概要): Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos

論文の概要: Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos

arxiv url: http://arxiv.org/abs/2504.04837v1
Date: Mon, 07 Apr 2025 08:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-15 20:55:53.703019
Title: Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos
Title（参考訳）: Uni4D: ポイントクラウドビデオのための統合された自己監視学習フレームワーク
Authors: Zhi Zuo, Chenyi Zhuang, Zhiqiang Shen, Pan Gao, Jie Qin,
Abstract要約: 事前学習段階における識別的4次元表現を学習するための,最初の自己異方性MAEを紹介する。我々は,Uni4Dと呼ぶ全4Dタスクの微調整性能を向上できることを実証した。
参考スコア（独自算出の注目度）: 48.8325946928959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Point cloud video representation learning is primarily built upon the masking strategy in a self-supervised manner. However, the progress is slow due to several significant challenges: (1) existing methods learn the motion particularly with hand-crafted designs, leading to unsatisfactory motion patterns during pre-training which are non-transferable on fine-tuning scenarios. (2) previous Masked AutoEncoder (MAE) frameworks are limited in resolving the huge representation gap inherent in 4D data. In this study, we introduce the first self-disentangled MAE for learning discriminative 4D representations in the pre-training stage. To address the first challenge, we propose to model the motion representation in a latent space. The second issue is resolved by introducing the latent tokens along with the typical geometry tokens to disentangle high-level and low-level features during decoding. Extensive experiments on MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, and SHREC'17 verify this self-disentangled learning framework. We demonstrate that it can boost the fine-tuning performance on all 4D tasks, which we term Uni4D. Our pre-trained model presents discriminative and meaningful 4D representations, particularly benefits processing long videos, as Uni4D gets $+3.8\%$ segmentation accuracy on HOI4D, significantly outperforming either self-supervised or fully-supervised methods after end-to-end fine-tuning.
Abstract（参考訳）: ポイントクラウドビデオ表現学習は、主に自己教師型のマスキング戦略に基づいて構築されている。 1) 既存の手法は手作りデザインで特に動きを学習し、微調整のシナリオでは伝達不能な事前学習中に不満足な動きパターンをもたらす。 2) 従来のMasked AutoEncoder(MAE)フレームワークは、4Dデータに固有の巨大な表現ギャップを解決するのに限られていた。本研究では,事前学習段階における識別的4次元表現を学習するための,最初の自己距離MAEを紹介する。最初の課題に対処するために、潜在空間における動きの表現をモデル化することを提案する。 2つ目の問題は、遅延トークンと典型的な幾何トークンを導入して、デコード中に高レベルと低レベルの特徴を歪めることによって解決される。 MSR-Action3D, NTU-RGBD, HOI4D, NvGesture, SHREC'17の大規模な実験により, この自己分散学習フレームワークが検証された。われわれは,Uni4Dと呼ぶ全4Dタスクの微調整性能を向上できることを実証した。我々の事前訓練されたモデルは差別的で有意義な4D表現を示し、特に長いビデオの処理に有用である。

関連論文リスト

OpenHuman4D: Open-Vocabulary 4D Human Parsing [7.533936292165496]
推論時間を短縮し,オープン語彙機能を導入する,最初の4Dヒューマンパーシングフレームワークを紹介する。最先端のオープン・ボキャブラリーな3D人間のパース技術に基づいて、我々のアプローチは4Dの人間中心のビデオへのサポートを拡大する。
論文参考訳（メタデータ） (2025-07-14T03:35:06Z)
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文参考訳（メタデータ） (2025-03-26T17:56:16Z)
Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene [122.42861221739123]
本稿では,リッチな2次元視覚シーンアノテーションを活用して4次元シーン学習を促進する4D-PSG生成のための新しいフレームワークについて検討する。本研究では,2次元SGアノテーションから4次元シーンへ空間的時間的特徴を効果的に伝達する2次元から4次元の視覚的シーン伝達学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T09:16:08Z)
AR4D: Autoregressive 4D Generation from Monocular Videos [27.61057927559143]
既存のアプローチは主に、ノベルビューの動画を推測するためにスコア蒸留サンプリングに依存している。 SDSフリー4D生成のための新しいパラダイムであるAR4Dを提案する。我々は,AR4DがSDSを使わずに最先端の4D生成を実現し,多様性の向上,空間的時間的整合性の向上,入力プロンプトとの整合性の向上を実現していることを示す。
論文参考訳（メタデータ） (2025-01-03T09:27:36Z)
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models [39.488763757826426]
2次元視覚言語モデル(VLM)は、画像テキスト理解タスクにおいて大きな進歩を遂げている。近年の進歩は、3Dポイントクラウドとマルチビューイメージを入力として活用し、有望な結果をもたらしている。人間の知覚にインスパイアされた視覚ベースのソリューションを提案する。
論文参考訳（メタデータ） (2025-01-02T18:59:59Z)
Scaling 4D Representations [77.85462796134455]
ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
論文参考訳（メタデータ） (2024-12-19T18:59:51Z)
EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文参考訳（メタデータ） (2024-05-28T12:47:22Z)
Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。 textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。 SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文参考訳（メタデータ） (2024-03-02T08:18:57Z)
Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文参考訳（メタデータ） (2024-01-23T02:41:06Z)
X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文参考訳（メタデータ） (2023-12-12T15:48:12Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文参考訳（メタデータ） (2023-11-28T15:03:53Z)
NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。 NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文参考訳（メタデータ） (2023-10-12T13:42:49Z)
Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2022-12-10T16:26:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。