Fugu-MT 論文翻訳(概要): PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm

論文の概要: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm

arxiv url: http://arxiv.org/abs/2310.08586v1
Date: Thu, 12 Oct 2023 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 08:15:43.013493
Title: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm
Title（参考訳）: PonderV2: 普遍的な事前学習パラダイムによる3Dファウンデーションモデルの構築
Authors: Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang
Abstract要約: 本稿では,効率的な3D表現の獲得を容易にするための総合的な3D事前学習フレームワークを提案する。本稿では,異なるニューラルレンダリングによるポイントクラウド表現を学習するための新しい普遍的パラダイムを提案する。初めて、Sexynameは11の屋内および屋外ベンチマークで最先端のパフォーマンスを達成した。
参考スコア（独自算出の注目度）: 114.47216525866435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In contrast to numerous NLP and 2D computer vision foundational models, the learning of a robust and highly generalized 3D foundational model poses considerably greater challenges. This is primarily due to the inherent data variability and the diversity of downstream tasks. In this paper, we introduce a comprehensive 3D pre-training framework designed to facilitate the acquisition of efficient 3D representations, thereby establishing a pathway to 3D foundational models. Motivated by the fact that informative 3D features should be able to encode rich geometry and appearance cues that can be utilized to render realistic images, we propose a novel universal paradigm to learn point cloud representations by differentiable neural rendering, serving as a bridge between 3D and 2D worlds. We train a point cloud encoder within a devised volumetric neural renderer by comparing the rendered images with the real images. Notably, our approach demonstrates the seamless integration of the learned 3D encoder into diverse downstream tasks. These tasks encompass not only high-level challenges such as 3D detection and segmentation but also low-level objectives like 3D reconstruction and image synthesis, spanning both indoor and outdoor scenarios. Besides, we also illustrate the capability of pre-training a 2D backbone using the proposed universal methodology, surpassing conventional pre-training methods by a large margin. For the first time, \sexyname achieves state-of-the-art performance on 11 indoor and outdoor benchmarks. The consistent improvements in various settings imply the effectiveness of the proposed method. Code and models will be made available at https://github.com/Pointcept/Pointcept.
Abstract（参考訳）: 多くのNLPや2Dコンピュータビジョンの基礎モデルとは対照的に、堅牢で高度に一般化された3D基礎モデルの学習は大きな課題をもたらす。これは主に、固有のデータ変動性とダウンストリームタスクの多様性によるものだ。本稿では,効率的な3D表現の獲得を容易にするために設計された,総合的な3D事前学習フレームワークを提案する。実写画像のレンダリングに活用できるリッチな幾何学的特徴と外観的手がかりをエンコード可能な情報的3D特徴により,我々は,3次元世界と2次元世界のブリッジとして機能する,微分可能なニューラルレンダリングによりポイントクラウド表現を学習するための,新しい普遍パラダイムを提案する。我々は,実画像とレンダリング画像を比較することにより,考案したボリュームトリクスニューラルレンダラ内でポイントクラウドエンコーダを訓練する。特に,本手法では,学習した3Dエンコーダを多様な下流タスクにシームレスに統合する。これらのタスクは、3D検出やセグメンテーションといったハイレベルな課題だけでなく、3D再構成や画像合成といった低レベルな目標も含んでいる。さらに,提案手法を用いて2次元バックボーンを事前学習する能力を示し,従来のプレトレーニング手法を大差で上回った。初めて、 \sexynameは11の屋内および屋外ベンチマークで最先端のパフォーマンスを達成している。各種設定における一貫した改善は,提案手法の有効性を示唆する。コードとモデルはhttps://github.com/pointcept/pointceptで利用可能になる。

関連論文リスト

Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
SplatTalk: 3D VQA with Gaussian Splatting [13.211810095081159]
言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。 SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文参考訳（メタデータ） (2025-03-08T16:31:48Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文参考訳（メタデータ） (2024-10-31T15:02:05Z)
Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。 3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文参考訳（メタデータ） (2024-07-29T17:59:21Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging [18.111368889931885]
VISTA3D,Versatile Imaging SegmenTation,voxel modelを提案する。確立された3Dセグメンテーションパイプライン上に構築されている。これは、3D自動(127クラスのサポート)と3Dインタラクティブセグメンテーションの両方で最先端のパフォーマンスを達成する最初のモデルである。
論文参考訳（メタデータ） (2024-06-07T22:41:39Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文参考訳（メタデータ） (2024-04-12T17:58:04Z)
Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。 Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文参考訳（メタデータ） (2023-10-10T16:49:21Z)
DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。 2Dと3Dのニューラルレンダリング技術の利点を利用する。挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2022-03-29T17:59:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。