論文の概要: Image2Point: 3D Point-Cloud Understanding with Pretrained 2D ConvNets
- arxiv url: http://arxiv.org/abs/2106.04180v1
- Date: Tue, 8 Jun 2021 08:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:09:29.510412
- Title: Image2Point: 3D Point-Cloud Understanding with Pretrained 2D ConvNets
- Title(参考訳): Image2Point: 事前トレーニングされた2D ConvNetによる3Dポイントクラウド理解
- Authors: Chenfeng Xu, Shijia Yang, Bohan Zhai, Bichen Wu, Xiangyu Yue, Wei
Zhan, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
- Abstract要約: 私たちは、イメージとポイントクラウドの両方を理解するために、同じニューラルネットモデルアーキテクチャを実際に使用できることを示します。
具体的には、画像データセットに事前トレーニングされた2D ConvNetに基づいて、2D畳み込みフィルタを3Dにテキスト化することで、画像モデルをポイントクラウドモデルに転送することができる。
転送されたモデルは、3Dポイントクラウドの分類、屋内および運転シーンのセグメンテーションにおいて、幅広いポイントクラウドモデルに打ち勝つことさえできる。
- 参考スコア(独自算出の注目度): 45.78834662125001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D point-clouds and 2D images are different visual representations of the
physical world. While human vision can understand both representations,
computer vision models designed for 2D image and 3D point-cloud understanding
are quite different. Our paper investigates the potential for transferability
between these two representations by empirically investigating whether this
approach works, what factors affect the transfer performance, and how to make
it work even better. We discovered that we can indeed use the same neural net
model architectures to understand both images and point-clouds. Moreover, we
can transfer pretrained weights from image models to point-cloud models with
minimal effort. Specifically, based on a 2D ConvNet pretrained on an image
dataset, we can transfer the image model to a point-cloud model by
\textit{inflating} 2D convolutional filters to 3D then finetuning its input,
output, and optionally normalization layers. The transferred model can achieve
competitive performance on 3D point-cloud classification, indoor and driving
scene segmentation, even beating a wide range of point-cloud models that adopt
task-specific architectures and use a variety of tricks.
- Abstract(参考訳): 3Dポイントクラウドと2Dイメージは、物理世界の異なる視覚的表現である。
人間の視覚は両方の表現を理解できるが、2d画像と3dポイントクラウド理解用に設計されたコンピュータビジョンモデルは、かなり異なる。
本稿では,これらの2つの表現間の伝達可能性について,このアプローチが機能するかどうか,転送性能に影響を及ぼす要因,さらにどのように機能させるかについて実証的に検討する。
私たちは、イメージとポイントクラウドの両方を理解するために、同じニューラルネットモデルアーキテクチャを実際に使用できることを発見しました。
さらに,事前学習した重みを画像モデルからポイントクラウドモデルに最小限の労力で転送できる。
具体的には、イメージデータセットに事前トレーニングされた2D ConvNetに基づいて、画像モデルをtextit{inflating} 2D畳み込みフィルタによってポイントクラウドモデルに転送し、入力、出力、任意に正規化レイヤを微調整する。
トランスファーモデルは、3dポイントクラウドの分類、屋内および運転シーンのセグメンテーションにおいて競合性能を達成でき、タスク固有のアーキテクチャを採用し、さまざまなトリックを使用する幅広いポイントクラウドモデルを打ち負かすこともできる。
関連論文リスト
- Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers [38.08724410736292]
本稿では,3次元ポイントクラウド解析の課題を達成するために,2次元事前知識を持つ事前学習モデルの活用を試みる。
本稿では,適応ポイントフォーマー (APF) を提案する。
論文 参考訳(メタデータ) (2024-07-18T06:32:45Z) - HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Intrinsic Image Decomposition Using Point Cloud Representation [13.771632868567277]
本稿では3次元クラウドデータを利用してアルベドとシェーディングマップを同時に推定するPoint Intrinsic Net(PoInt-Net)を紹介する。
PoInt-Netは効率的で、任意のサイズのポイントクラウドで一貫したパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-20T14:51:28Z) - Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost
3D Point Cloud Data-scarce Learning? [38.06639044139636]
本研究は,Multi-view Vision-Prompt Fusion Network (MvNet) を提案する。
MvNetは、3Dの複数ショットポイントのクラウドイメージ分類のために、最先端のパフォーマンスを新たに実現している。
論文 参考訳(メタデータ) (2023-04-20T11:39:41Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。