論文の概要: Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining
- arxiv url: http://arxiv.org/abs/2104.04687v1
- Date: Sat, 10 Apr 2021 05:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 05:52:55.766525
- Title: Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining
- Title(参考訳): 2Dから学ぶ:3次元事前学習のための画素間知識伝達
- Authors: Yueh-Cheng Liu, Yu-Kai Huang, Hung-Yueh Chiang, Hung-Ting Su, Zhe-Yu
Liu, Chin-Tang Chen, Ching-Yu Tseng, Winston H. Hsu
- Abstract要約: 豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
- 参考スコア(独自算出の注目度): 21.878815180924832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the 3D networks are trained from scratch owning to the lack of
large-scale labeled datasets. In this paper, we present a novel 3D pretraining
method by leveraging 2D networks learned from rich 2D datasets. We propose the
pixel-to-point knowledge transfer to effectively utilize the 2D information by
mapping the pixel-level and point-level features into the same embedding space.
Due to the heterogeneous nature between 2D and 3D networks, we introduce the
back-projection function to align the features between 2D and 3D to make the
transfer possible. Additionally, we devise an upsampling feature projection
layer to increase the spatial resolution of high-level 2D feature maps, which
helps learning fine-grained 3D representations. With a pretrained 2D network,
the proposed pretraining process requires no additional 2D or 3D labeled data,
further alleviating the expansive 3D data annotation cost. To the best of our
knowledge, we are the first to exploit existing 2D trained weights to pretrain
3D deep neural networks. Our intensive experiments show that the 3D models
pretrained with 2D knowledge boost the performances across various real-world
3D downstream tasks.
- Abstract(参考訳): 3Dネットワークのほとんどは、大規模なラベル付きデータセットの欠如によって、スクラッチの所有からトレーニングされている。
本稿では,リッチな2次元データセットから学習した2次元ネットワークを利用して,新しい3次元事前学習手法を提案する。
画素レベルの特徴と点レベルの特徴を同じ埋め込み空間にマッピングすることにより、2D情報を効果的に活用するための画素間知識伝達を提案する。
2dネットワークと3dネットワークの異質性から,2dと3dの機能を整合させて転送を可能にするバックプロジェクション機能を導入する。
さらに,高次2次元特徴写像の空間分解能を高めるために,アップサンプリング機能プロジェクション層を考案し,微細な3次元表現の学習を支援する。
事前訓練された2Dネットワークでは、提案した事前学習プロセスでは、追加の2Dまたは3Dラベル付きデータを必要としない。
私たちの知る限りでは、既存の2dトレーニング重みを活用して3d深層ニューラルネットワークを事前トレーニングした最初の例です。
集中的な実験により,2次元知識を事前学習した3dモデルが,実世界のさまざまな3dダウンストリームタスクのパフォーマンスを向上させることが示された。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation [67.36775428466045]
2次元事前学習モデルから優れた3次元表現を学習するための幾何学ガイド自己蒸留(GGSD)を提案する。
3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-07-18T10:13:56Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。