論文の概要: Object-Aware Cropping for Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2112.00319v2
- Date: Thu, 6 Apr 2023 20:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 15:39:33.581190
- Title: Object-Aware Cropping for Self-Supervised Learning
- Title(参考訳): 自己教師付き学習のためのオブジェクトアウェア・クロッピング
- Authors: Shlok Mishra, Anshul Shah, Ankan Bansal, Abhyuday Jagannatha, Janit
Anjaria, Abhishek Sharma, David Jacobs, Dilip Krishnan
- Abstract要約: 本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
- 参考スコア(独自算出の注目度): 21.79324121283122
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A core component of the recent success of self-supervised learning is
cropping data augmentation, which selects sub-regions of an image to be used as
positive views in the self-supervised loss. The underlying assumption is that
randomly cropped and resized regions of a given image share information about
the objects of interest, which the learned representation will capture. This
assumption is mostly satisfied in datasets such as ImageNet where there is a
large, centered object, which is highly likely to be present in random crops of
the full image. However, in other datasets such as OpenImages or COCO, which
are more representative of real world uncurated data, there are typically
multiple small objects in an image. In this work, we show that self-supervised
learning based on the usual random cropping performs poorly on such datasets.
We propose replacing one or both of the random crops with crops obtained from
an object proposal algorithm. This encourages the model to learn both object
and scene level semantic representations. Using this approach, which we call
object-aware cropping, results in significant improvements over scene cropping
on classification and object detection benchmarks. For example, on OpenImages,
our approach achieves an improvement of 8.8% mAP over random scene-level
cropping using MoCo-v2 based pre-training. We also show significant
improvements on COCO and PASCAL-VOC object detection and segmentation tasks
over the state-of-the-art self-supervised learning approaches. Our approach is
efficient, simple and general, and can be used in most existing contrastive and
non-contrastive self-supervised learning frameworks.
- Abstract(参考訳): 近年の自己教師付き学習の成功の核となる要素は、自己教師付き学習におけるポジティブな視点として使用される画像のサブリージョンを選択するクロップデータ拡張である。
基礎となる前提は、与えられた画像のランダムに切り取られた領域が、学習された表現がキャプチャする対象に関する情報を共有することである。
この仮定は、主に大きな中心オブジェクトがあるimagenetのようなデータセットで満たされており、これはフルイメージのランダムな作物に存在する可能性が高い。
しかし、OpenImagesやCOCOなどの他のデータセットでは、実際の未処理データの表現がより多いため、画像内には通常、複数の小さなオブジェクトが存在する。
本研究では,通常のランダムトリミングに基づく自己教師型学習が,そのようなデータセット上では不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
これにより、モデルはオブジェクトとシーンレベルのセマンティック表現の両方を学ぶことができる。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
例えば、OpenImagesでは、MoCo-v2ベースの事前学習によるランダムなシーンレベルの作付けよりも8.8%mAPの改善を実現している。
また,COCOとPASCAL-VOCのオブジェクト検出とセグメンテーションタスクにおいて,最先端の自己教師型学習手法よりも大幅な改善が見られた。
私たちのアプローチは効率的でシンプルで汎用的で、既存のコントラストと非一貫性の学習フレームワークで使用できます。
関連論文リスト
- Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。
興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。
4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2022-05-28T05:13:45Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。