論文の概要: PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm
- arxiv url: http://arxiv.org/abs/2310.08586v3
- Date: Tue, 27 Feb 2024 13:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:08:43.147988
- Title: PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm
- Title(参考訳): PonderV2: ユニバーサルな事前学習パラダイムによる3Dファンデーションモデルへの道を開く
- Authors: Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong
He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Tong He, Wanli Ouyang
- Abstract要約: 本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
- 参考スコア(独自算出の注目度): 114.47216525866435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to numerous NLP and 2D vision foundational models, learning a 3D
foundational model poses considerably greater challenges. This is primarily due
to the inherent data variability and diversity of downstream tasks. In this
paper, we introduce a novel universal 3D pre-training framework designed to
facilitate the acquisition of efficient 3D representation, thereby establishing
a pathway to 3D foundational models. Considering that informative 3D features
should encode rich geometry and appearance cues that can be utilized to render
realistic images, we propose to learn 3D representations by differentiable
neural rendering. We train a 3D backbone with a devised volumetric neural
renderer by comparing the rendered with the real images. Notably, our approach
seamlessly integrates the learned 3D encoder into various downstream tasks.
These tasks encompass not only high-level challenges such as 3D detection and
segmentation but also low-level objectives like 3D reconstruction and image
synthesis, spanning both indoor and outdoor scenarios. Besides, we also
illustrate the capability of pre-training a 2D backbone using the proposed
methodology, surpassing conventional pre-training methods by a large margin.
For the first time, PonderV2 achieves state-of-the-art performance on 11 indoor
and outdoor benchmarks, implying its effectiveness. Code and models are
available at https://github.com/OpenGVLab/PonderV2.
- Abstract(参考訳): 多くのNLPや2D視覚基礎モデルとは異なり、3D基礎モデルを学ぶことは大きな課題をもたらす。
これは主に、ダウンストリームタスクの固有のデータばらつきと多様性に起因する。
本稿では,効率的な3D表現の獲得を容易にするために設計された,新しいユニバーサル3D事前学習フレームワークを提案する。
インフォメーション3d機能は、リアルな画像のレンダリングに使用できるリッチな幾何学と外観の手がかりをエンコードすべきであると考え、微分可能なニューラルネットワークによる3d表現を学習することを提案する。
我々は、実画像と比較することにより、3Dバックボーンを設計したボリューム・ニューラル・レンダラーで訓練する。
特に,本手法は学習した3Dエンコーダを様々な下流タスクにシームレスに統合する。
これらのタスクは、3D検出やセグメンテーションといったハイレベルな課題だけでなく、3D再構成や画像合成といった低レベルな目標も含んでいる。
また,提案手法を用いて2次元バックボーンを事前学習する能力を示し,従来のプレトレーニング法を大差で上回った。
PonderV2は11の室内および屋外ベンチマークで最先端のパフォーマンスを達成した。
コードとモデルはhttps://github.com/opengvlab/ponderv2で入手できる。
関連論文リスト
- Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。