論文の概要: Leveraging the Third Dimension in Contrastive Learning
- arxiv url: http://arxiv.org/abs/2301.11790v1
- Date: Fri, 27 Jan 2023 15:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 14:59:15.138579
- Title: Leveraging the Third Dimension in Contrastive Learning
- Title(参考訳): コントラスト学習における3次元の活用
- Authors: Sumukh Aithal, Anirudh Goyal, Alex Lamb, Yoshua Bengio, Michael Mozer
- Abstract要約: SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
これらの拡張は、生物学的ビジョンが没入的な3次元、時間的に連続した環境で起こるという事実を無視している。
SSLフレームワークにディープシグナルを組み込むための2つの異なるアプローチについて検討する。
- 参考スコア(独自算出の注目度): 88.17394309208925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) methods operate on unlabeled data to learn
robust representations useful for downstream tasks. Most SSL methods rely on
augmentations obtained by transforming the 2D image pixel map. These
augmentations ignore the fact that biological vision takes place in an
immersive three-dimensional, temporally contiguous environment, and that
low-level biological vision relies heavily on depth cues. Using a signal
provided by a pretrained state-of-the-art monocular RGB-to-depth model (the
\emph{Depth Prediction Transformer}, Ranftl et al., 2021), we explore two
distinct approaches to incorporating depth signals into the SSL framework.
First, we evaluate contrastive learning using an RGB+depth input
representation. Second, we use the depth signal to generate novel views from
slightly different camera positions, thereby producing a 3D augmentation for
contrastive learning. We evaluate these two approaches on three different SSL
methods -- BYOL, SimSiam, and SwAV -- using ImageNette (10 class subset of
ImageNet), ImageNet-100 and ImageNet-1k datasets. We find that both approaches
to incorporating depth signals improve the robustness and generalization of the
baseline SSL methods, though the first approach (with depth-channel
concatenation) is superior. For instance, BYOL with the additional depth
channel leads to an increase in downstream classification accuracy from 85.3\%
to 88.0\% on ImageNette and 84.1\% to 87.0\% on ImageNet-C.
- Abstract(参考訳): SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
ほとんどのssl手法は、2d画像ピクセルマップを変換して得られる拡張に依存する。
これらの拡張は、生物の視覚が没入的な3次元、時間的に連続した環境で起こるという事実を無視し、低レベルの生物の視覚は深さの手がかりに大きく依存している。
事前訓練された最先端単分子RGB-to-deepthモデル(the \emph{Depth Prediction Transformer}, Ranftl et al., 2021)の信号を用いて、SSLフレームワークに奥行き信号を統合する2つの異なるアプローチを探索する。
まず,rgb+ deep 入力表現を用いたコントラスト学習の評価を行う。
第2に、奥行き信号を用いて、わずかに異なるカメラ位置から新しいビューを生成し、コントラスト学習のための3D拡張を生成する。
我々は、ImageNette(ImageNetの10クラスサブセット)、ImageNet-100、ImageNet-1kデータセットを使用して、BYOL、SimSiam、SwaVの3つの異なるSSLメソッドに対して、これらの2つのアプローチを評価する。
奥行き信号を取り込むアプローチはどちらもベースラインssl法のロバスト性と一般化を改善しているが、最初のアプローチ(奥行きチャネル結合)は優れている。
例えば、深度チャネルを付加したbyolは、imagenetteでは85.3\%から88.0\%、imagenet-cでは84.1\%から87.0\%へと下流分類精度が向上する。
関連論文リスト
- De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals [9.201550006194994]
学習可能なマーカは、画像ペア間のコビジュアビリティの小さな領域だけが存在する場合、しばしば性能が低下する。
グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
その結果,画像対の相対的ポーズ精度が向上し,画像対の相対的ポーズ精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-03-22T17:46:27Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Offline Visual Representation Learning for Embodied Navigation [50.442660137987275]
自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
論文 参考訳(メタデータ) (2022-04-27T23:22:43Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - Pri3D: Can 3D Priors Help 2D Representation Learning? [37.35721274841419]
近年の3次元知覚の進歩は、3次元空間の幾何学的構造を理解する上で顕著な進歩を示した。
このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。
マルチビューRGB-Dデータに基づくネットワークプリトレーニングのためのビュー不変なジオメトリ認識表現の学習手法を提案する。
論文 参考訳(メタデータ) (2021-04-22T17:59:30Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。