論文の概要: Exploring the Diversity and Invariance in Yourself for Visual
Pre-Training Task
- arxiv url: http://arxiv.org/abs/2106.00537v1
- Date: Tue, 1 Jun 2021 14:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:16:34.787483
- Title: Exploring the Diversity and Invariance in Yourself for Visual
Pre-Training Task
- Title(参考訳): 視覚前訓練作業における自己の多様性と不変性を探る
- Authors: Longhui Wei, Lingxi Xie, Wengang Zhou, Houqiang Li, Qi Tian
- Abstract要約: 自己指導型学習法は視覚前訓練において顕著な成功を収めた。
これらの手法は、限られた領域のみに焦点を当てたり、抽出された特徴を各画像内の全く異なる領域に当てはめることはほぼ同じである。
本稿では,自身のE-DIYにおける多様性と不変性を探究する。
- 参考スコア(独自算出の注目度): 192.74445148376037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-supervised learning methods have achieved remarkable success
in visual pre-training task. By simply pulling the different augmented views of
each image together or other novel mechanisms, they can learn much unsupervised
knowledge and significantly improve the transfer performance of pre-training
models. However, these works still cannot avoid the representation collapse
problem, i.e., they only focus on limited regions or the extracted features on
totally different regions inside each image are nearly the same. Generally,
this problem makes the pre-training models cannot sufficiently describe the
multi-grained information inside images, which further limits the upper bound
of their transfer performance. To alleviate this issue, this paper introduces a
simple but effective mechanism, called Exploring the Diversity and Invariance
in Yourself E-DIY. By simply pushing the most different regions inside each
augmented view away, E-DIY can preserve the diversity of extracted region-level
features. By pulling the most similar regions from different augmented views of
the same image together, E-DIY can ensure the robustness of region-level
features. Benefited from the above diversity and invariance exploring
mechanism, E-DIY maximally extracts the multi-grained visual information inside
each image. Extensive experiments on downstream tasks demonstrate the
superiority of our proposed approach, e.g., there are 2.1% improvements
compared with the strong baseline BYOL on COCO while fine-tuning Mask R-CNN
with the R50-C4 backbone and 1X learning schedule.
- Abstract(参考訳): 近年,自己指導型学習手法は視覚前訓練において顕著な成功を収めている。
各画像の異なる拡張ビューをまとめたり、あるいは他の新しいメカニズムを取り入れることで、教師なしの知識を習得し、事前学習モデルの転送性能を大幅に向上させることができる。
しかし、これらの作品は表現の崩壊問題を避けることはできない。つまり、それらは限られた領域のみに焦点を当てたり、画像内の全く異なる領域で抽出された特徴がほぼ同じである。
一般に、この問題は、事前学習モデルが画像内の複数の粒度の情報を十分に記述できないため、転送性能の上限がさらに制限される。
この問題を軽減するため,本稿では,e-diyにおける多様性と不変性を検討するという,単純かつ効果的なメカニズムを紹介する。
E-DIYは、各拡張ビュー内の最も異なる領域を移動させることで、抽出された領域レベルの特徴の多様性を維持できる。
同じ画像の異なる拡張ビューから最も類似した領域を抽出することで、E-DIYは領域レベルの機能の堅牢性を確保することができる。
上記の多様性と不変性探索機構から、E-DIYは各画像内の多粒度視覚情報を最大限に抽出する。
例えば、COCO上の強力なベースラインであるBYOLに比べて2.1%改善され、R50-C4バックボーンと1X学習スケジュールを微調整したMask R-CNNが実現された。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Mutual Distillation Learning For Person Re-Identification [27.350415735863184]
MDPR(Multual Distillation Learning for Person Re-identification)という新しい手法を提案する。
本手法は,一様水平分割戦略により局所特徴を抽出するハードコンテンツブランチと,前景と背景を動的に区別するソフトコンテンツブランチの2つを含む。
提案手法はDukeC-reIDデータセット上のmAP/Rank-1の8.7%/94.4%の驚くべき値を得る。
論文 参考訳(メタデータ) (2024-01-12T07:49:02Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Mugs: A Multi-Granular Self-Supervised Learning Framework [114.34858365121725]
マルチグラニュラー視覚特徴を明瞭に学習するための効果的なMUlti-Granular Self-supervised Learning (Mugs) フレームワークを提案する。
1)インスタンス識別監督(IDS)、2)新しいローカルグループ識別監督(LGDS)、3)グループ識別監督(GDS)である。
論文 参考訳(メタデータ) (2022-03-27T23:42:05Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Progressive Multi-stage Feature Mix for Person Re-Identification [11.161336369536818]
CNNは、最も健康な地域に対してあまりに多くの注意を払っている。
%BDBは、高い応答領域を拡大するために、1ブロックをランダムにバッチにドロップすることを提案する。
本稿では,より正確で多様な特徴を段階的に把握できるPMM(Progressive Multi-stage Feature Mix Network)を提案する。
論文 参考訳(メタデータ) (2020-07-17T06:59:39Z) - Diversity Helps: Unsupervised Few-shot Learning via Distribution
Shift-based Data Augmentation [21.16237189370515]
ほんの少しのトレーニング例があれば、新しい概念を学ぶことが目的だ。
本稿では、分散シフトに基づくデータ拡張による教師なしFew-shot Learningと呼ばれる新しいフレームワークを開発する。
実験では、ULDAによって学習された少数ショットモデルにより、より優れた一般化性能が得られる。
論文 参考訳(メタデータ) (2020-04-13T07:41:56Z) - Attentive CutMix: An Enhanced Data Augmentation Approach for Deep
Learning Based Image Classification [58.20132466198622]
そこで我々は,CutMixに基づく自然拡張拡張戦略であるAttentive CutMixを提案する。
各トレーニングイテレーションにおいて、特徴抽出器から中間注意マップに基づいて最も記述性の高い領域を選択する。
提案手法は単純かつ有効であり,実装が容易であり,ベースラインを大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-03-29T15:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。