論文の概要: Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning
- arxiv url: http://arxiv.org/abs/2012.02733v2
- Date: Wed, 7 Apr 2021 08:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:39:22.867149
- Title: Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning
- Title(参考訳): seed the view: 抽象表現学習のための階層的意味的アライメント
- Authors: Haohang Xu, Xiaopeng Zhang, Hao Li, Lingxi Xie, Hongkai Xiong, Qi Tian
- Abstract要約: 一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
- 参考スコア(独自算出の注目度): 116.91819311885166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning based on instance discrimination has shown
remarkable progress. In particular, contrastive learning, which regards each
image as well as its augmentations as an individual class and tries to
distinguish them from all other images, has been verified effective for
representation learning. However, pushing away two images that are de facto
similar is suboptimal for general representation. In this paper, we propose a
hierarchical semantic alignment strategy via expanding the views generated by a
single image to \textbf{Cross-samples and Multi-level} representation, and
models the invariance to semantically similar images in a hierarchical way.
This is achieved by extending the contrastive loss to allow for multiple
positives per anchor, and explicitly pulling semantically similar
images/patches together at different layers of the network. Our method, termed
as CsMl, has the ability to integrate multi-level visual representations across
samples in a robust way. CsMl is applicable to current contrastive learning
based methods and consistently improves the performance. Notably, using the
moco as an instantiation, CsMl achieves a \textbf{76.6\% }top-1 accuracy with
linear evaluation using ResNet-50 as backbone, and \textbf{66.7\%} and
\textbf{75.1\%} top-1 accuracy with only 1\% and 10\% labels, respectively.
\textbf{All these numbers set the new state-of-the-art.}
- Abstract(参考訳): インスタンス識別に基づく自己教師付き学習は著しく進歩している。
特に、各画像とその増補を個別のクラスとして捉え、それらを他のすべての画像と区別しようとする対比学習は、表現学習に有効であることが証明されている。
しかし、事実上類似した2つの画像を押し出すことは、一般表現に最適である。
本稿では,1つの画像から生成されたビューを \textbf{cross-samples and multi-level} 表現に拡張して階層的意味的アライメント戦略を提案する。
これは、コントラスト損失を拡張してアンカー当たりの複数の正を許容し、ネットワークの異なる層で意味的に類似したイメージ/パッチを明示的にプルすることで達成される。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合することができる。
csmlは現在のコントラスト学習ベース手法に適用でき、一貫して性能が向上する。
特に、モコをインスタンス化として用いて、CsMlは、ResNet-50をバックボーンとして線形評価した \textbf{76.6\% }top-1 の精度、および \textbf{66.7\%} と \textbf{75.1\%} のトップ1の精度をそれぞれ1\%と10\%のラベルで達成する。
\textbf{allこれらの数字は、新しい最先端をセットする。
関連論文リスト
- Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。