論文の概要: Self-supervised Modal and View Invariant Feature Learning
- arxiv url: http://arxiv.org/abs/2005.14169v1
- Date: Thu, 28 May 2020 17:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 05:30:20.435576
- Title: Self-supervised Modal and View Invariant Feature Learning
- Title(参考訳): 自己教師付きモーダルとビュー不変特徴学習
- Authors: Longlong Jing, Yucheng Chen, Ling Zhang, Mingyi He, Yingli Tian
- Abstract要約: 本稿では、画像、点雲、メッシュなど、様々なモードから、モーダル不変およびビュー不変の特徴を共同で学習することを提案する。
モーダルおよびビュー不変の特徴を学習するために,クロスモーダル不変制約とクロスビュー不変制約という2種類の制約を提案する。
学習した機能の質は、ポイントクラウド、マルチビューイメージ、メッシュを含む3つのデータモードで、さまざまな下流タスクでテストされている。
- 参考スコア(独自算出の注目度): 32.01548991331616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing self-supervised feature learning methods for 3D data
either learn 3D features from point cloud data or from multi-view images. By
exploring the inherent multi-modality attributes of 3D objects, in this paper,
we propose to jointly learn modal-invariant and view-invariant features from
different modalities including image, point cloud, and mesh with heterogeneous
networks for 3D data. In order to learn modal- and view-invariant features, we
propose two types of constraints: cross-modal invariance constraint and
cross-view invariant constraint. Cross-modal invariance constraint forces the
network to maximum the agreement of features from different modalities for same
objects, while the cross-view invariance constraint forces the network to
maximum agreement of features from different views of images for same objects.
The quality of learned features has been tested on different downstream tasks
with three modalities of data including point cloud, multi-view images, and
mesh. Furthermore, the invariance cross different modalities and views are
evaluated with the cross-modal retrieval task. Extensive evaluation results
demonstrate that the learned features are robust and have strong
generalizability across different tasks.
- Abstract(参考訳): 既存の3Dデータのための自己教師付き特徴学習手法のほとんどは、ポイントクラウドデータやマルチビューイメージから3D特徴を学習する。
本稿では,3次元オブジェクトに固有のマルチモーダル特性を探索することにより,画像,点雲,メッシュなど,さまざまなモダリティからモーダル不変およびビュー不変の特徴を3次元データのための異種ネットワークで共同学習することを提案する。
モードとビュー不変性を学ぶために, クロスモーダル不変性制約とクロスビュー不変性制約の2種類の制約を提案する。
クロスモーダル不変性制約は、同一オブジェクトに対する異なるモダリティからの特徴の一致を最大化させ、クロスビュー不変性制約は、同一オブジェクトに対する異なるビューからの特徴の最大一致をネットワークに強制する。
学習した機能の質は、ポイントクラウド、マルチビューイメージ、メッシュを含む3つのデータモードで、さまざまな下流タスクでテストされている。
さらに、異なるモーダル性およびビューの不変性を、クロスモーダル検索タスクで評価する。
広範囲な評価結果から,学習した特徴は頑健であり,様々なタスクにまたがる強い一般化性を有することが示された。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - Instance-Variant Loss with Gaussian RBF Kernel for 3D Cross-modal
Retriveal [52.41252219453429]
既存の方法は全てのインスタンスを等しく扱い、同じペナルティ強度を様々な難易度を持つインスタンスに適用する。
これは曖昧な収束や局所最適性をもたらし、特徴空間の分離性を著しく妥協させる。
本稿では,異なるインスタンスに対して異なるペナルティ強度を割り当て,空間分離性を向上させるインスタンス・ヴァリアント損失を提案する。
論文 参考訳(メタデータ) (2023-05-07T10:12:14Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - A Novel Patch Convolutional Neural Network for View-based 3D Model
Retrieval [36.12906920608775]
ビューベース3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク(PCNN)を提案する。
提案したPCNNは, それぞれ93.67%, 96.23%と, 最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-25T07:18:23Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - MVTN: Multi-View Transformation Network for 3D Shape Recognition [80.34385402179852]
本稿では,3次元形状認識のための最適視点を回帰するマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状分類のためのマルチビューネットワークと共に、エンドツーエンドで訓練することができる。
MVTNは3次元形状分類と3次元形状検索のタスクにおいて、余分な訓練監督を必要とせず、明らかな性能向上を示す。
論文 参考訳(メタデータ) (2020-11-26T11:33:53Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。