論文の概要: Bag of Image Patch Embedding Behind the Success of Self-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2206.08954v2
- Date: Tue, 13 Jun 2023 00:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 18:44:11.218490
- Title: Bag of Image Patch Embedding Behind the Success of Self-Supervised
Learning
- Title(参考訳): 自己監督学習の成功の背後にあるイメージパッチのバグ
- Authors: Yubei Chen, Adrien Bardes, Zengyi Li, Yann LeCun
- Abstract要約: この研究は、共同埋め込み型SSLアプローチがイメージパッチの表現を学習し、その共起を反映していることを示している。
画像表現がベースライン法とよく似た結果が得られるように,固定スケールのパッチの表現を学習し,局所的なパッチの表現を集約することが実証的に示される。
- 参考スコア(独自算出の注目度): 12.480529556920974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has recently achieved tremendous empirical
advancements in learning image representation. However, our understanding of
the principle behind learning such a representation is still limited. This work
shows that joint-embedding SSL approaches primarily learn a representation of
image patches, which reflects their co-occurrence. Such a connection to
co-occurrence modeling can be established formally, and it supplements the
prevailing invariance perspective. We empirically show that learning a
representation for fixed-scale patches and aggregating local patch
representations as the image representation achieves similar or even better
results than the baseline methods. We denote this process as BagSSL. Even with
32x32 patch representation, BagSSL achieves 62% top-1 linear probing accuracy
on ImageNet. On the other hand, with a multi-scale pretrained model, we show
that the whole image embedding is approximately the average of local patch
embeddings. While the SSL representation is relatively invariant at the global
scale, we show that locality is preserved when we zoom into local patch-level
representation. Further, we show that patch representation aggregation can
improve various SOTA baseline methods by a large margin. The patch
representation is considerably easier to understand, and this work makes a step
to demystify self-supervised representation learning.
- Abstract(参考訳): 自己教師付き学習(SSL)は近年,画像表現の学習において極めて経験的な進歩を遂げている。
しかし、そのような表現を学習する背景にある原則に対する我々の理解はまだ限られている。
この研究は、SSLアプローチが主にイメージパッチの表現を学習していることを示している。
このような共起モデルへの接続は正式に確立することができ、一般的な不変性の観点から補うことができる。
画像表現がベースラインメソッドと同等あるいはそれ以上の結果が得られるように,固定規模のパッチの表現を学習し,局所的なパッチ表現を集約できることを実証的に示す。
このプロセスをBagSSLと表現します。
32x32パッチの表現であっても、BagSSLはImageNet上で62%のトップ1線形探索精度を達成した。
一方,マルチスケール事前学習モデルでは,画像全体の埋め込みは局所的なパッチ埋め込みの平均値であることがわかった。
SSL表現はグローバルスケールでは比較的不変であるが,ローカルパッチレベルの表現にズームインすると局所性が保存されることを示す。
さらに,パッチ表現アグリゲーションは,様々なSOTAベースライン手法を大きなマージンで改善できることを示す。
パッチ表現は理解し易く、この研究は自己教師ありの表現学習を解き明かすための一歩となる。
関連論文リスト
- Dense Self-Supervised Learning for Medical Image Segmentation [0.0]
本稿では,少数ショットセグメンテーションのための自己教師付き学習(SSL)アプローチであるPix2Repを提案する。
ラベルのない画像から直接、強力なピクセルレベルの表現を学習することで、手動によるアノテーションの負担を軽減する。
その結果、既存の半教師付きアプローチや自己教師型アプローチと比較して性能が向上した。
論文 参考訳(メタデータ) (2024-07-29T19:42:22Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Self-Supervised Pyramid Representation Learning for Multi-Label Visual
Analysis and Beyond [31.36818611460614]
本稿では,自己改善ピラミッド学習(SS-PRL)フレームワークを提案する。
提案したSS-PRLは、適切なプロトタイプを学習することで、パッチレベルでピラミッド表現を導出するように設計されている。
本稿では,モデル事前学習のためのSS-PRLを提案することにより,様々なアプリケーションに対するモデルの適応と微調整が容易に可能であることを示す。
論文 参考訳(メタデータ) (2022-08-30T17:57:14Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Isometric Propagation Network for Generalized Zero-shot Learning [72.02404519815663]
一般的な戦略は、クラス属性の意味空間と、見たクラスとそのデータに基づいて画像の視覚空間とのマッピングを学ぶことである。
本稿では,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric propagation Network (IPN)を提案する。
IPNは3つの人気のあるゼロショット学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-03T12:45:38Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。