論文の概要: PonderV2: Pave the Way for 3D Foundataion Model with A Universal
Pre-training Paradigm
- arxiv url: http://arxiv.org/abs/2310.08586v1
- Date: Thu, 12 Oct 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:15:43.013493
- Title: PonderV2: Pave the Way for 3D Foundataion Model with A Universal
Pre-training Paradigm
- Title(参考訳): PonderV2: 普遍的な事前学習パラダイムによる3Dファウンデーションモデルの構築
- Authors: Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong
He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang
- Abstract要約: 本稿では,効率的な3D表現の獲得を容易にするための総合的な3D事前学習フレームワークを提案する。
本稿では,異なるニューラルレンダリングによるポイントクラウド表現を学習するための新しい普遍的パラダイムを提案する。
初めて、Sexynameは11の屋内および屋外ベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 114.47216525866435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to numerous NLP and 2D computer vision foundational models, the
learning of a robust and highly generalized 3D foundational model poses
considerably greater challenges. This is primarily due to the inherent data
variability and the diversity of downstream tasks. In this paper, we introduce
a comprehensive 3D pre-training framework designed to facilitate the
acquisition of efficient 3D representations, thereby establishing a pathway to
3D foundational models. Motivated by the fact that informative 3D features
should be able to encode rich geometry and appearance cues that can be utilized
to render realistic images, we propose a novel universal paradigm to learn
point cloud representations by differentiable neural rendering, serving as a
bridge between 3D and 2D worlds. We train a point cloud encoder within a
devised volumetric neural renderer by comparing the rendered images with the
real images. Notably, our approach demonstrates the seamless integration of the
learned 3D encoder into diverse downstream tasks. These tasks encompass not
only high-level challenges such as 3D detection and segmentation but also
low-level objectives like 3D reconstruction and image synthesis, spanning both
indoor and outdoor scenarios. Besides, we also illustrate the capability of
pre-training a 2D backbone using the proposed universal methodology, surpassing
conventional pre-training methods by a large margin. For the first time,
\sexyname achieves state-of-the-art performance on 11 indoor and outdoor
benchmarks. The consistent improvements in various settings imply the
effectiveness of the proposed method. Code and models will be made available at
https://github.com/Pointcept/Pointcept.
- Abstract(参考訳): 多くのNLPや2Dコンピュータビジョンの基礎モデルとは対照的に、堅牢で高度に一般化された3D基礎モデルの学習は大きな課題をもたらす。
これは主に、固有のデータ変動性とダウンストリームタスクの多様性によるものだ。
本稿では,効率的な3D表現の獲得を容易にするために設計された,総合的な3D事前学習フレームワークを提案する。
実写画像のレンダリングに活用できるリッチな幾何学的特徴と外観的手がかりをエンコード可能な情報的3D特徴により,我々は,3次元世界と2次元世界のブリッジとして機能する,微分可能なニューラルレンダリングによりポイントクラウド表現を学習するための,新しい普遍パラダイムを提案する。
我々は,実画像とレンダリング画像を比較することにより,考案したボリュームトリクスニューラルレンダラ内でポイントクラウドエンコーダを訓練する。
特に,本手法では,学習した3Dエンコーダを多様な下流タスクにシームレスに統合する。
これらのタスクは、3D検出やセグメンテーションといったハイレベルな課題だけでなく、3D再構成や画像合成といった低レベルな目標も含んでいる。
さらに,提案手法を用いて2次元バックボーンを事前学習する能力を示し,従来のプレトレーニング手法を大差で上回った。
初めて、 \sexynameは11の屋内および屋外ベンチマークで最先端のパフォーマンスを達成している。
各種設定における一貫した改善は,提案手法の有効性を示唆する。
コードとモデルはhttps://github.com/pointcept/pointceptで利用可能になる。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging [18.111368889931885]
VISTA3D,Versatile Imaging SegmenTation,voxel modelを提案する。
確立された3Dセグメンテーションパイプライン上に構築されている。
これは、3D自動(127クラスのサポート)と3Dインタラクティブセグメンテーションの両方で最先端のパフォーマンスを達成する最初のモデルである。
論文 参考訳(メタデータ) (2024-06-07T22:41:39Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。