論文の概要: Improving Pixel-Level Contrastive Learning by Leveraging Exogenous Depth
Information
- arxiv url: http://arxiv.org/abs/2211.10177v1
- Date: Fri, 18 Nov 2022 11:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:11:14.925484
- Title: Improving Pixel-Level Contrastive Learning by Leveraging Exogenous Depth
Information
- Title(参考訳): 外因性深度情報を活用した画素レベルコントラスト学習の改善
- Authors: Ahmed Ben Saad, Kristina Prokopetc, Josselin Kherroubi, Axel Davy,
Adrien Courtois, Gabriele Facciolo
- Abstract要約: 近年,コントラスト学習(CL)に基づく自己指導型表現学習が注目されている。
本稿では,深度ネットワークを用いたり,利用可能なデータから測定したりすることで得られる深度情報に焦点を当てる。
比較損失におけるこの推定情報を用いることで、結果が改善され、学習された表現がオブジェクトの形状に従うのがよいことを示す。
- 参考スコア(独自算出の注目度): 7.561849435043042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised representation learning based on Contrastive Learning (CL)
has been the subject of much attention in recent years. This is due to the
excellent results obtained on a variety of subsequent tasks (in particular
classification), without requiring a large amount of labeled samples. However,
most reference CL algorithms (such as SimCLR and MoCo, but also BYOL and Barlow
Twins) are not adapted to pixel-level downstream tasks. One existing solution
known as PixPro proposes a pixel-level approach that is based on filtering of
pairs of positive/negative image crops of the same image using the distance
between the crops in the whole image. We argue that this idea can be further
enhanced by incorporating semantic information provided by exogenous data as an
additional selection filter, which can be used (at training time) to improve
the selection of the pixel-level positive/negative samples. In this paper we
will focus on the depth information, which can be obtained by using a depth
estimation network or measured from available data (stereovision, parallax
motion, LiDAR, etc.). Scene depth can provide meaningful cues to distinguish
pixels belonging to different objects based on their depth. We show that using
this exogenous information in the contrastive loss leads to improved results
and that the learned representations better follow the shapes of objects. In
addition, we introduce a multi-scale loss that alleviates the issue of finding
the training parameters adapted to different object sizes. We demonstrate the
effectiveness of our ideas on the Breakout Segmentation on Borehole Images
where we achieve an improvement of 1.9\% over PixPro and nearly 5\% over the
supervised baseline. We further validate our technique on the indoor scene
segmentation tasks with ScanNet and outdoor scenes with CityScapes ( 1.6\% and
1.1\% improvement over PixPro respectively).
- Abstract(参考訳): 近年,コントラスト学習(CL)に基づく自己指導型表現学習が注目されている。
これは、大量のラベル付きサンプルを必要とすることなく、様々なタスク(特に分類)で得られた優れた結果のためである。
しかし、ほとんどの参照CLアルゴリズム(SimCLR、MoCo、BYOL、Barlow Twinsなど)は、ピクセルレベルの下流タスクに適応していない。
PixProとして知られる既存のソリューションのひとつが、画像全体の作物間の距離を用いて、同じ画像の正負のイメージ作物のペアをフィルタリングする、ピクセルレベルのアプローチを提案する。
我々は、このアイデアをさらに強化するために、外因性データによって提供される意味情報を追加選択フィルタとして組み込むことにより、ピクセルレベルの正負のサンプルの選択を改善することができると論じている。
本稿では,深度推定ネットワークを利用したり,利用可能なデータ(ステレオビジョン,パララックスモーション,LiDARなど)から測定することで得られる深度情報に焦点を当てる。
シーンの深さは、その深さに基づいて異なるオブジェクトに属するピクセルを識別するための意味のある手がかりを提供する。
コントラスト損失におけるこの外在的情報を用いることにより, 結果が向上し, 学習した表現が物体の形状によく従うことが示された。
さらに、異なるオブジェクトサイズに適応したトレーニングパラメータを見つけることの問題を緩和するマルチスケールの損失を導入する。
ボアホール画像におけるブレークアウトセグメンテーションにおけるアイデアの有効性を実証し,pixpro よりも1.9 %,教師付きベースラインより5 %近く向上した。
さらに,ScanNetを用いた屋内シーンセグメンテーションタスクとCityScapesによる屋外シーン(PixProによる1.6\%と1.1\%)の検証を行った。
関連論文リスト
- Temporal Lidar Depth Completion [0.08192907805418582]
PENetは, 再発の恩恵を受けるために, 最新の手法であるPENetをどう修正するかを示す。
提案アルゴリズムは,KITTI深度補完データセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-17T08:25:31Z) - Probabilistic Deep Metric Learning for Hyperspectral Image
Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。
ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。
我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文 参考訳(メタデータ) (2022-11-15T17:57:12Z) - PDC: Piecewise Depth Completion utilizing Superpixels [0.0]
現在のアプローチは、いくつかの既知の欠点のあるCNNベースのメソッドに依存することが多い。
深層学習なしで完全に機能する小説『Piecewise Depth Completion』(PDC)を提案する。
本評価では,提案した処理ステップがKITTIデータセットに与える影響と,本手法の全体的な性能に与える影響について述べる。
論文 参考訳(メタデータ) (2021-07-14T13:58:39Z) - Dual Pixel Exploration: Simultaneous Depth Estimation and Image
Restoration [77.1056200937214]
本研究では,ぼかしと深度情報をリンクするDPペアの形成について検討する。
本稿では,画像の深さを共同で推定し,復元するためのエンドツーエンドDDDNet(DPベースのDepth and De Network)を提案する。
論文 参考訳(メタデータ) (2020-12-01T06:53:57Z) - Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning [60.75687261314962]
我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
論文 参考訳(メタデータ) (2020-11-19T18:59:45Z) - Deep Photo Cropper and Enhancer [65.11910918427296]
画像に埋め込まれた画像を収穫する新しいタイプの画像強調問題を提案する。
提案手法をディープ・フォト・クリーパーとディープ・イメージ・エンハンサーの2つのディープ・ネットワークに分割した。
フォトクロッパーネットワークでは,埋め込み画像の抽出に空間変換器を用いる。
フォトエンハンサーでは、埋め込み画像中の画素数を増やすために超解像を用いる。
論文 参考訳(メタデータ) (2020-08-03T03:50:20Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Rethinking Data Augmentation for Image Super-resolution: A Comprehensive
Analysis and a New Strategy [21.89072742618842]
超分解能タスクに適用された既存の拡張手法を包括的に分析する。
我々は、低解像度のパッチをカットし、それに対応する高解像度の画像領域にペーストするCutBlurを提案する。
提案手法は, 様々なシナリオにおいて連続的に, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-04-01T13:49:38Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。