論文の概要: Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning
- arxiv url: http://arxiv.org/abs/2111.13651v2
- Date: Mon, 29 Nov 2021 14:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 13:14:04.224105
- Title: Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning
- Title(参考訳): 空間騒音カリキュラム学習によるオブジェクトレベル事前学習
- Authors: Chenhongyi Yang, Lichao Huang, Elliot J. Crowley
- Abstract要約: 本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
- 参考スコア(独自算出の注目度): 12.697842097171119
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The goal of contrastive learning based pre-training is to leverage large
quantities of unlabeled data to produce a model that can be readily adapted
downstream. Current approaches revolve around solving an image discrimination
task: given an anchor image, an augmented counterpart of that image, and some
other images, the model must produce representations such that the distance
between the anchor and its counterpart is small, and the distances between the
anchor and the other images are large. There are two significant problems with
this approach: (i) by contrasting representations at the image-level, it is
hard to generate detailed object-sensitive features that are beneficial to
downstream object-level tasks such as instance segmentation; (ii) the
augmentation strategy of producing an augmented counterpart is fixed, making
learning less effective at the later stages of pre-training. In this work, we
introduce Curricular Contrastive Object-level Pre-training (CCOP) to tackle
these problems: (i) we use selective search to find rough object regions and
use them to build an inter-image object-level contrastive loss and an
intra-image object-level discrimination loss into our pre-training objective;
(ii) we present a curriculum learning mechanism that adaptively augments the
generated regions, which allows the model to consistently acquire a useful
learning signal, even in the later stages of pre-training. Our experiments show
that our approach improves on the MoCo v2 baseline by a large margin on
multiple object-level tasks when pre-training on multi-object scene image
datasets. Code is available at https://github.com/ChenhongyiYang/CCOP.
- Abstract(参考訳): 対照的な学習に基づく事前学習の目標は、大量のラベルのないデータを活用して、下流に容易に適応可能なモデルを作成することである。
現在のアプローチでは、アンカー画像、その画像の強化された対応する画像、その他の画像が与えられたとき、アンカーとアンカーの間の距離が小さく、アンカーと他の画像との間の距離が大きくなるような表現を生成する必要がある。
このアプローチには2つの大きな問題があります。
(i)画像レベルでの表現を対比することにより、インスタンスセグメンテーションのような下流のオブジェクトレベルのタスクに有益な、詳細なオブジェクト感性機能を生成することは困難である。
(ii)増補版を作るための増補戦略は固定されており、事前学習の後半段階では学習が効果的ではない。
本稿では,これらの問題に取り組むために,ccop(curricular contrastive object-level pre-training)を導入する。
(i)粗い対象領域の探索に選択的検索を使用し、それらを画像間オブジェクトレベルのコントラスト損失と画像内オブジェクトレベルの識別損失を事前学習対象に組み込む。
2) 学習前段階の後期においても, モデルが一貫して有用な学習信号を取得することができるように, 生成領域を適応的に増強するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーン画像データセットを事前トレーニングする場合,複数のオブジェクトレベルのタスクに対して大きなマージンでmoco v2ベースラインを改善することができた。
コードはhttps://github.com/ChenhongyiYang/CCOPで公開されている。
関連論文リスト
- GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - CoDo: Contrastive Learning with Downstream Background Invariance for
Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。
プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。
MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-10T01:26:15Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。