論文の概要: Align Yourself: Self-supervised Pre-training for Fine-grained
Recognition via Saliency Alignment
- arxiv url: http://arxiv.org/abs/2106.15788v1
- Date: Wed, 30 Jun 2021 02:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:34:04.779926
- Title: Align Yourself: Self-supervised Pre-training for Fine-grained
Recognition via Saliency Alignment
- Title(参考訳): 相性アライメントによるきめ細かい認識のための自己指導型事前学習
- Authors: Di Wu, Siyuan Li, Zelin Zang, Kai Wang, Lei Shang, Baigui Sun, Hao Li,
Stan Z. Li
- Abstract要約: Cross-view Saliency Alignment (CVSA)は、画像のサリエンシ領域を新しいビュー生成としてトリミングし、交換し、その後、クロスビューアライメント損失を通じて、前景オブジェクトのローカライズを誘導する、対照的な学習フレームワークである。
4つの一般的な詳細な分類ベンチマークの実験により、CVSAは学習された表現を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 34.38172454910976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised contrastive learning has demonstrated great potential in
learning visual representations. Despite their success on various downstream
tasks such as image classification and object detection, self-supervised
pre-training for fine-grained scenarios is not fully explored. In this paper,
we first point out that current contrastive methods are prone to memorizing
background/foreground texture and therefore have a limitation in localizing the
foreground object. Analysis suggests that learning to extract discriminative
texture information and localization are equally crucial for self-supervised
pre-training under fine-grained scenarios. Based on our findings, we introduce
Cross-view Saliency Alignment (CVSA), a contrastive learning framework that
first crops and swaps saliency regions of images as a novel view generation and
then guides the model to localize on the foreground object via a cross-view
alignment loss. Extensive experiments on four popular fine-grained
classification benchmarks show that CVSA significantly improves the learned
representation.
- Abstract(参考訳): 自己指導型コントラスト学習は視覚表現の学習に大きな可能性を示した。
画像分類やオブジェクト検出などのダウンストリームタスクでの成功にもかかわらず、きめ細かいシナリオに対する自己教師あり事前トレーニングは十分に検討されていない。
本稿では,まず,現在のコントラスト法が背景/フォアグラウンドテクスチャを記憶し易いため,フォアグラウンドオブジェクトのローカライズに限界があることを指摘する。
分析により,細粒度シナリオにおける自己教師付き事前学習において,識別的テクスチャ情報抽出と局所化の学習が等しく重要であることが示唆された。
そこで本研究では,新しい視点生成法として,まず画像の塩分領域を収穫し,交換し,その後,クロスビューアライメント損失により前景オブジェクトにローカライズするようにモデルを誘導する,コントラスト型学習フレームワークであるcross-view saliency alignment (cvsa)を提案する。
CVSAが学習表現を著しく改善することを示す4つの一般的な微粒化分類ベンチマークの大規模な実験を行った。
関連論文リスト
- In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。
提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。
領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文 参考訳(メタデータ) (2022-02-09T18:56:41Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。
ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文 参考訳(メタデータ) (2021-03-10T15:23:45Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。