論文の概要: Distilling Localization for Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2004.06638v2
- Date: Tue, 19 Jan 2021 15:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:49:10.437533
- Title: Distilling Localization for Self-Supervised Representation Learning
- Title(参考訳): 自己監督型表現学習のための蒸留局所化
- Authors: Nanxuan Zhao, Zhirong Wu, Rynson W.H. Lau, Stephen Lin
- Abstract要約: コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
- 参考スコア(独自算出の注目度): 82.79808902674282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in contrastive learning has revolutionized unsupervised
representation learning. Concretely, multiple views (augmentations) from the
same image are encouraged to map to the similar embeddings, while views from
different images are pulled apart. In this paper, through visualizing and
diagnosing classification errors, we observe that current contrastive models
are ineffective at localizing the foreground object, limiting their ability to
extract discriminative high-level features. This is due to the fact that view
generation process considers pixels in an image uniformly. To address this
problem, we propose a data-driven approach for learning invariance to
backgrounds. It first estimates foreground saliency in images and then creates
augmentations by copy-and-pasting the foreground onto a variety of backgrounds.
The learning still follows the instance discrimination pretext task, so that
the representation is trained to disregard background content and focus on the
foreground. We study a variety of saliency estimation methods, and find that
most methods lead to improvements for contrastive learning. With this approach
(DiLo), significant performance is achieved for self-supervised learning on
ImageNet classification, and also for object detection on PASCAL VOC and
MSCOCO.
- Abstract(参考訳): コントラスト学習の最近の進歩は教師なし表現学習に革命をもたらした。
具体的には、同じ画像からの複数のビュー(表示)を同じ埋め込みにマップすることが推奨され、異なる画像からのビューは分離される。
本稿では, 分類誤差の可視化と診断を通じて, 現在のコントラストモデルでは前景の局所化に効果がなく, 識別的高レベル特徴の抽出能力に制限があることを示す。
これは、ビュー生成プロセスが画像中のピクセルを均一に考慮しているためである。
そこで本研究では,背景への不変性を学ぶためのデータ駆動アプローチを提案する。
まず、画像における前景の給与を推定し、その後、様々な背景に前景をコピー&ペーストすることで拡張を生成する。
学習は依然としてインスタンス識別プリテキストタスクに従い、背景コンテンツを無視して前景に集中するように訓練される。
本研究は,様々なサルマンシー推定法について検討し,ほとんどの手法がコントラスト学習の改善につながることを見出した。
このアプローチ(DiLo)により、ImageNet分類の自己教師型学習や、PASCAL VOCとMSCOCOのオブジェクト検出にも大きなパフォーマンスが達成される。
関連論文リスト
- LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations [4.680881326162484]
画像分類やオブジェクト検出などの下流タスクにおける教師あり学習よりも優れている。
対照的な学習における一般的な強化手法は、ランダムな収穫とそれに続くリサイズである。
本稿では,新しいインスタンス識別手法と適応型損失関数を用いたフレームワークであるLeOCLRを紹介する。
論文 参考訳(メタデータ) (2024-03-11T15:33:32Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - CoDo: Contrastive Learning with Downstream Background Invariance for
Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。
プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。
MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-10T01:26:15Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z) - Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文 参考訳(メタデータ) (2020-07-28T00:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。