論文の概要: Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences
- arxiv url: http://arxiv.org/abs/2004.05749v1
- Date: Mon, 13 Apr 2020 02:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:01:25.028219
- Title: Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences
- Title(参考訳): クロスモーダルとクロスビュー対応による自己指導型特徴学習
- Authors: Longlong Jing, Yucheng Chen, Ling Zhang, Mingyi He, Yingli Tian
- Abstract要約: 本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
- 参考スコア(独自算出の注目度): 32.01548991331616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of supervised learning requires large-scale ground truth labels
which are very expensive, time-consuming, or may need special skills to
annotate. To address this issue, many self- or un-supervised methods are
developed. Unlike most existing self-supervised methods to learn only 2D image
features or only 3D point cloud features, this paper presents a novel and
effective self-supervised learning approach to jointly learn both 2D image
features and 3D point cloud features by exploiting cross-modality and
cross-view correspondences without using any human annotated labels.
Specifically, 2D image features of rendered images from different views are
extracted by a 2D convolutional neural network, and 3D point cloud features are
extracted by a graph convolution neural network. Two types of features are fed
into a two-layer fully connected neural network to estimate the cross-modality
correspondence. The three networks are jointly trained (i.e. cross-modality) by
verifying whether two sampled data of different modalities belong to the same
object, meanwhile, the 2D convolutional neural network is additionally
optimized through minimizing intra-object distance while maximizing
inter-object distance of rendered images in different views (i.e. cross-view).
The effectiveness of the learned 2D and 3D features is evaluated by
transferring them on five different tasks including multi-view 2D shape
recognition, 3D shape recognition, multi-view 2D shape retrieval, 3D shape
retrieval, and 3D part-segmentation. Extensive evaluations on all the five
different tasks across different datasets demonstrate strong generalization and
effectiveness of the learned 2D and 3D features by the proposed self-supervised
method.
- Abstract(参考訳): 教師付き学習の成功には、非常に高価で時間を要する大規模な真実ラベルが必要である。
この問題に対処するために、多くの自己または非監督手法が開発されている。
2d画像特徴のみを学習したり,あるいは3d点クラウド特徴のみを学習する既存の自己教師あり手法と異なり,人間の注釈ラベルを使わずに2d画像特徴と3d点クラウド特徴の両方を共同学習する,新規かつ効果的な自己教師あり学習手法を提案する。
具体的には、異なるビューからレンダリングされた画像の2D画像特徴を2D畳み込みニューラルネットワークで抽出し、グラフ畳み込みニューラルネットワークで3D点雲特徴を抽出する。
2種類の特徴を2層完全連結ニューラルネットワークに供給し、相互モダリティ対応を推定する。
3つのネットワークは、異なるモダリティの2つのサンプルデータが同じオブジェクトに属するかどうかを検証することによって、共同訓練(すなわち、クロスモダリティ)され、一方、2d畳み込みニューラルネットワークは、異なるビュー(すなわち、クロスビュー)でレンダリングされた画像のオブジェクト間距離を最大化しながら、オブジェクト間距離を最小化することで、さらに最適化される。
学習した2次元特徴と3次元特徴の有効性を,多視点2次元形状認識,3次元形状認識,多視点2次元形状検索,3次元形状検索,および3次元部分分割を含む5つのタスクに伝達することによって評価する。
異なるデータセットにまたがる5つの異なるタスクの広範囲な評価は、学習した2次元および3次元特徴を自己教師あり法によって強固に一般化し、有効性を示す。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic
Segmentation [17.557697146752652]
2Dと3Dセマンティックセマンティックセグメンテーションは3Dシーン理解において主流になっている。
この2つの異なる空間から立体的特徴を融合し処理する方法はまだ解明されていない。
本稿では,その単純さに拘わらず,一方向の多視点2次元深部セマンティックな特徴を3次元の深部セマンティックな特徴と整合した3次元空間に投影することで,より優れた機能融合がもたらされることを論じる。
論文 参考訳(メタデータ) (2022-12-13T15:58:25Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z) - Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。
提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。
精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文 参考訳(メタデータ) (2019-12-27T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。