論文の概要: PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm
- arxiv url: http://arxiv.org/abs/2310.08586v3
- Date: Tue, 27 Feb 2024 13:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:08:43.147988
- Title: PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm
- Title(参考訳): PonderV2: ユニバーサルな事前学習パラダイムによる3Dファンデーションモデルへの道を開く
- Authors: Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong
He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Tong He, Wanli Ouyang
- Abstract要約: 本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
- 参考スコア(独自算出の注目度): 114.47216525866435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to numerous NLP and 2D vision foundational models, learning a 3D
foundational model poses considerably greater challenges. This is primarily due
to the inherent data variability and diversity of downstream tasks. In this
paper, we introduce a novel universal 3D pre-training framework designed to
facilitate the acquisition of efficient 3D representation, thereby establishing
a pathway to 3D foundational models. Considering that informative 3D features
should encode rich geometry and appearance cues that can be utilized to render
realistic images, we propose to learn 3D representations by differentiable
neural rendering. We train a 3D backbone with a devised volumetric neural
renderer by comparing the rendered with the real images. Notably, our approach
seamlessly integrates the learned 3D encoder into various downstream tasks.
These tasks encompass not only high-level challenges such as 3D detection and
segmentation but also low-level objectives like 3D reconstruction and image
synthesis, spanning both indoor and outdoor scenarios. Besides, we also
illustrate the capability of pre-training a 2D backbone using the proposed
methodology, surpassing conventional pre-training methods by a large margin.
For the first time, PonderV2 achieves state-of-the-art performance on 11 indoor
and outdoor benchmarks, implying its effectiveness. Code and models are
available at https://github.com/OpenGVLab/PonderV2.
- Abstract(参考訳): 多くのNLPや2D視覚基礎モデルとは異なり、3D基礎モデルを学ぶことは大きな課題をもたらす。
これは主に、ダウンストリームタスクの固有のデータばらつきと多様性に起因する。
本稿では,効率的な3D表現の獲得を容易にするために設計された,新しいユニバーサル3D事前学習フレームワークを提案する。
インフォメーション3d機能は、リアルな画像のレンダリングに使用できるリッチな幾何学と外観の手がかりをエンコードすべきであると考え、微分可能なニューラルネットワークによる3d表現を学習することを提案する。
我々は、実画像と比較することにより、3Dバックボーンを設計したボリューム・ニューラル・レンダラーで訓練する。
特に,本手法は学習した3Dエンコーダを様々な下流タスクにシームレスに統合する。
これらのタスクは、3D検出やセグメンテーションといったハイレベルな課題だけでなく、3D再構成や画像合成といった低レベルな目標も含んでいる。
また,提案手法を用いて2次元バックボーンを事前学習する能力を示し,従来のプレトレーニング法を大差で上回った。
PonderV2は11の室内および屋外ベンチマークで最先端のパフォーマンスを達成した。
コードとモデルはhttps://github.com/opengvlab/ponderv2で入手できる。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging [18.111368889931885]
VISTA3D,Versatile Imaging SegmenTation,voxel modelを提案する。
確立された3Dセグメンテーションパイプライン上に構築されている。
これは、3D自動(127クラスのサポート)と3Dインタラクティブセグメンテーションの両方で最先端のパフォーマンスを達成する最初のモデルである。
論文 参考訳(メタデータ) (2024-06-07T22:41:39Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。