論文の概要: RegionCL: Can Simple Region Swapping Contribute to Contrastive Learning?
- arxiv url: http://arxiv.org/abs/2111.12309v1
- Date: Wed, 24 Nov 2021 07:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:36:52.994792
- Title: RegionCL: Can Simple Region Swapping Contribute to Contrastive Learning?
- Title(参考訳): RegionCL: 単純領域スワッピングはコントラスト学習に寄与できるか?
- Authors: Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao
- Abstract要約: 地域コントラスト学習(RegionCL)という,シンプルで効果的な前提文タスクを提案する。
具体的には、2つの異なる画像が与えられた場合、各画像から同じ大きさの領域をランダムに収穫し、それを交換して2つの新しい画像と左の領域を合成する。
RegionCLは、これらの豊富なペアを利用して、モデルをキャンバスとペーストの両方のビューと区別するのに役立つ。
- 参考スコア(独自算出の注目度): 76.16156833138038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods (SSL) have achieved significant success via
maximizing the mutual information between two augmented views, where cropping
is a popular augmentation technique. Cropped regions are widely used to
construct positive pairs, while the left regions after cropping have rarely
been explored in existing methods, although they together constitute the same
image instance and both contribute to the description of the category. In this
paper, we make the first attempt to demonstrate the importance of both regions
in cropping from a complete perspective and propose a simple yet effective
pretext task called Region Contrastive Learning (RegionCL). Specifically, given
two different images, we randomly crop a region (called the paste view) from
each image with the same size and swap them to compose two new images together
with the left regions (called the canvas view), respectively. Then, contrastive
pairs can be efficiently constructed according to the following simple
criteria, i.e., each view is (1) positive with views augmented from the same
original image and (2) negative with views augmented from other images. With
minor modifications to popular SSL methods, RegionCL exploits those abundant
pairs and helps the model distinguish the regions features from both canvas and
paste views, therefore learning better visual representations. Experiments on
ImageNet, MS COCO, and Cityscapes demonstrate that RegionCL improves MoCo v2,
DenseCL, and SimSiam by large margins and achieves state-of-the-art performance
on classification, detection, and segmentation tasks. The code will be
available at https://github.com/Annbless/RegionCL.git.
- Abstract(参考訳): 自己監視型手法(ssl)は、2つの拡張ビュー間の相互情報を最大化することで大きな成功を収めている。
収穫された領域は正の対を作るのに広く用いられ、収穫後の左の領域は既存の方法ではほとんど探索されていないが、どちらも同じ画像のインスタンスを構成し、カテゴリの記述に寄与している。
本稿では,完全視点から収穫における両領域の重要性を実証する最初の試みとして,地域コントラスト学習(RegionCL)という,単純かつ効果的な前提課題を提案する。
具体的には、2つの異なる画像が与えられた場合、同じ大きさの画像からランダムに領域(ペーストビュー)を抽出し、左の領域(キャンバスビュー)とともに2つの新しい画像を構成するように置き換える。
そして、コントラストペアは、(1)同一の原画像からのビューが正、(2)他の画像からのビューが負、という単純な基準に従って効率的に構築することができる。
一般的なSSLメソッドに小さな変更を加えることで、RereaCLはこれらの豊富なペアを利用して、モデルをキャンバスとペーストの両方のビューと区別するのに役立つ。
ImageNet、MS COCO、Cityscapesの実験では、RereaCLはMoCo v2、DenseCL、SimSiamを大きなマージンで改善し、分類、検出、セグメンテーションタスクにおける最先端のパフォーマンスを達成する。
コードはhttps://github.com/Annbless/RegionCL.gitで入手できる。
関連論文リスト
- CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Saliency Guided Contrastive Learning on Scene Images [71.07412958621052]
我々は、学習中のモデルの出力から導かれるサリエンシマップを活用し、差別的な領域を強調し、対照的な学習全体をガイドする。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
論文 参考訳(メタデータ) (2023-02-22T15:54:07Z) - Region Embedding with Intra and Inter-View Contrastive Learning [29.141194278469417]
非教師なし地域表現学習は、未ラベルの都市データから密集した効果的な特徴を抽出することを目的としている。
表現学習におけるコントラスト学習の成功に触発され,多視点領域表現学習に活用することを提案する。
本研究では,特徴ある領域埋め込みの学習を支援するビュー内コントラスト学習モジュールと,ソフトなコレギュラライザとして機能するビュー間コントラスト学習モジュールを設計する。
論文 参考訳(メタデータ) (2022-11-15T10:57:20Z) - Dense Siamese Network [86.23741104851383]
本稿では,Dense Siamese Network(DenseSiam)を提案する。
画像の2つのビュー間の類似性を最大化し、ピクセルの一貫性と領域の一貫性という2種類の一貫性を学習する。
最先端のセグメンテーション手法を2.1 mIoUで28%のトレーニングコストで上回っている。
論文 参考訳(メタデータ) (2022-03-21T15:55:23Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。