論文の概要: Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations
- arxiv url: http://arxiv.org/abs/2103.00787v1
- Date: Mon, 1 Mar 2021 06:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:12:55.522141
- Title: Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations
- Title(参考訳): 自動符号化3D変換によるマルチビュー学習
- Authors: Xiang Gao, Wei Hu, Guo-Jun Qi
- Abstract要約: MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
- 参考スコア(独自算出の注目度): 61.870882736758624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object representation learning is a fundamental challenge in computer
vision to infer about the 3D world. Recent advances in deep learning have shown
their efficiency in 3D object recognition, among which view-based methods have
performed best so far. However, feature learning of multiple views in existing
methods is mostly performed in a supervised fashion, which often requires a
large amount of data labels with high costs. In contrast, self-supervised
learning aims to learn multi-view feature representations without involving
labeled data. To this end, we propose a novel self-supervised paradigm to learn
Multi-View Transformation Equivariant Representations (MV-TER), exploring the
equivariant transformations of a 3D object and its projected multiple views.
Specifically, we perform a 3D transformation on a 3D object, and obtain
multiple views before and after the transformation via projection. Then, we
self-train a representation to capture the intrinsic 3D object representation
by decoding 3D transformation parameters from the fused feature representations
of multiple views before and after the transformation. Experimental results
demonstrate that the proposed MV-TER significantly outperforms the
state-of-the-art view-based approaches in 3D object classification and
retrieval tasks, and show the generalization to real-world datasets.
- Abstract(参考訳): 3Dオブジェクト表現学習は、3D世界を推論するコンピュータビジョンの基本的な課題です。
近年のディープラーニングの進歩は、3Dオブジェクト認識における効率性を示しており、ビューベース手法がこれまでで最も優れている。
しかし、既存の手法における複数のビューの特徴学習は、多くの場合、高コストで大量のデータラベルを必要とする教師付き方式で行われる。
対照的に、自己監督学習はラベル付きデータを介さずにマルチビュー機能表現を学習することを目指している。
この目的のために,3次元オブジェクトの同変変換とその投影された複数のビューを探索し,MV-TER(Multi-View Transformation Equivariant Representation)を学習するための,新しい自己教師型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
実験の結果,提案したMV-TERは3次元オブジェクト分類および検索タスクにおける最先端のビューベースアプローチよりも優れており,実世界のデータセットへの一般化を示す。
関連論文リスト
- Deep Models for Multi-View 3D Object Recognition: A Review [16.500711021549947]
これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
論文 参考訳(メタデータ) (2024-04-23T16:54:31Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。