論文の概要: Leveraging background augmentations to encourage semantic focus in
self-supervised contrastive learning
- arxiv url: http://arxiv.org/abs/2103.12719v1
- Date: Tue, 23 Mar 2021 17:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:10:24.805517
- Title: Leveraging background augmentations to encourage semantic focus in
self-supervised contrastive learning
- Title(参考訳): 自己指導型コントラスト学習における意味集中を促す背景強化の活用
- Authors: Chaitanya K. Ryali, David J. Schwab, Ari S. Morcos
- Abstract要約: 背景強化」は、画像の背景に焦点を合わせないようにし、意味的関連コンテンツに焦点を合わせることを奨励する。
背景の増強は、最先端の自己監督方法のスペクトル全体のパフォーマンスの大幅な改善(ImageNet-1kで+1-2%)につながります。
- 参考スコア(独自算出の注目度): 16.93045612956149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised representation learning is an important challenge in computer
vision, with self-supervised learning methods recently closing the gap to
supervised representation learning. An important ingredient in high-performing
self-supervised methods is the use of data augmentation by training models to
place different augmented views of the same image nearby in embedding space.
However, commonly used augmentation pipelines treat images holistically,
disregarding the semantic relevance of parts of an image-e.g. a subject vs. a
background-which can lead to the learning of spurious correlations. Our work
addresses this problem by investigating a class of simple, yet highly effective
"background augmentations", which encourage models to focus on
semantically-relevant content by discouraging them from focusing on image
backgrounds. Background augmentations lead to substantial improvements (+1-2%
on ImageNet-1k) in performance across a spectrum of state-of-the art
self-supervised methods (MoCov2, BYOL, SwAV) on a variety of tasks, allowing us
to reach within 0.3% of supervised performance. We also demonstrate that
background augmentations improve robustness to a number of out of distribution
settings, including natural adversarial examples, the backgrounds challenge,
adversarial attacks, and ReaL ImageNet.
- Abstract(参考訳): 教師なし表現学習(unsupervised representation learning)は、コンピュータビジョンにおいて重要な課題である。
高性能な自己監督手法において重要な要素は、埋め込み空間に同じ画像の異なる拡張ビューを配置するためのトレーニングモデルによるデータ拡張の利用である。
しかし、一般的に使用される拡張パイプラインは、画像の一部の意味的関連性を無視して、画像を階層的に扱う。
主題と背景は、散発的な相関の学習につながる可能性がある。
本研究は,画像の背景に焦点を合わせないようにすることで,モデルが意味的に関連のあるコンテンツに焦点を合わせることを奨励する,シンプルで効果的な"背景拡張"のクラスを調査することによって,この問題に対処する。
背景拡張により、さまざまなタスクにおける最先端の自己監督メソッド(MoCov2、BYOL、SwaV)のスペクトルにわたるパフォーマンスが大幅に改善され(ImageNet-1kでは+1-2%)、教師付きパフォーマンスの0.3%以内に到達できます。
また,背景の強化により,自然敵の例,背景の課題,敵の攻撃,ReaL ImageNetなど,多数の配布設定の堅牢性が向上することを示す。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - CoDo: Contrastive Learning with Downstream Background Invariance for
Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。
プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。
MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-10T01:26:15Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Hard Negative Mixing for Contrastive Learning [29.91220669060252]
我々は、コントラスト学習の重要な側面、すなわちハードネガティブの影響は、これまで無視されてきたと論じている。
計算オーバーヘッドを最小限に抑えながら、オンザフライで計算できる機能レベルでのハードネガティブな混合戦略を提案する。
論文 参考訳(メタデータ) (2020-10-02T14:34:58Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。