論文の概要: Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding
- arxiv url: http://arxiv.org/abs/2206.08954v1
- Date: Fri, 17 Jun 2022 18:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:21:26.381341
- Title: Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding
- Title(参考訳): instance vicreg: 自己監視型イメージパッチ埋め込みバッグ
- Authors: Yubei Chen, Adrien Bardes, Zengyi Li, Yann LeCun
- Abstract要約: 自己教師付き学習(SSL)は画像表現の学習において極めて経験的な進歩を遂げた。
本研究は,SOTAシャイムネットワークベースのSSLアプローチの成功が,主にイメージパッチの表現を学習することに基づいていることを示す。
- 参考スコア(独自算出の注目度): 12.480529556920974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-supervised learning (SSL) has achieved tremendous empirical
advancements in learning image representation. However, our understanding and
knowledge of the representation are still limited. This work shows that the
success of the SOTA siamese-network-based SSL approaches is primarily based on
learning a representation of image patches. Particularly, we show that when we
learn a representation only for fixed-scale image patches and aggregate
different patch representations linearly for an image (instance), it can
achieve on par or even better results than the baseline methods on several
benchmarks. Further, we show that the patch representation aggregation can also
improve various SOTA baseline methods by a large margin. We also establish a
formal connection between the SSL objective and the image patches co-occurrence
statistics modeling, which supplements the prevailing invariance perspective.
By visualizing the nearest neighbors of different image patches in the
embedding space and projection space, we show that while the projection has
more invariance, the embedding space tends to preserve more equivariance and
locality. Finally, we propose a hypothesis for the future direction based on
the discovery of this work.
- Abstract(参考訳): 近年,自己教師付き学習(SSL)は画像表現の学習において極めて経験的な進歩を遂げている。
しかしながら、我々の表現の理解と知識はまだ限られている。
本研究は,SOTAシアムネットワークベースのSSLアプローチの成功が,主にイメージパッチの表現の学習に基づいていることを示す。
特に、固定スケールの画像パッチのみの表現を学習し、画像(インスタンス)の異なるパッチ表現を線形に集約すると、複数のベンチマークのベースラインメソッドよりも同等あるいはそれ以上の結果が得られることを示す。
さらに,パッチ表現アグリゲーションにより,様々なSOTAベースライン手法を大きなマージンで改善できることを示す。
また、SSLの目的と画像パッチの共起統計モデルとの正式な接続を確立することで、一般的な不変性の観点から補うことができる。
埋め込み空間と射影空間における異なる画像パッチの最も近い近傍を可視化することにより、射影はより不変であるが、埋め込み空間はより均等で局所性を保つ傾向があることを示す。
最後に,本研究の発見に基づく今後の方向性に関する仮説を提案する。
関連論文リスト
- Dense Self-Supervised Learning for Medical Image Segmentation [0.0]
本稿では,少数ショットセグメンテーションのための自己教師付き学習(SSL)アプローチであるPix2Repを提案する。
ラベルのない画像から直接、強力なピクセルレベルの表現を学習することで、手動によるアノテーションの負担を軽減する。
その結果、既存の半教師付きアプローチや自己教師型アプローチと比較して性能が向上した。
論文 参考訳(メタデータ) (2024-07-29T19:42:22Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Self-Supervised Pyramid Representation Learning for Multi-Label Visual
Analysis and Beyond [31.36818611460614]
本稿では,自己改善ピラミッド学習(SS-PRL)フレームワークを提案する。
提案したSS-PRLは、適切なプロトタイプを学習することで、パッチレベルでピラミッド表現を導出するように設計されている。
本稿では,モデル事前学習のためのSS-PRLを提案することにより,様々なアプリケーションに対するモデルの適応と微調整が容易に可能であることを示す。
論文 参考訳(メタデータ) (2022-08-30T17:57:14Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Isometric Propagation Network for Generalized Zero-shot Learning [72.02404519815663]
一般的な戦略は、クラス属性の意味空間と、見たクラスとそのデータに基づいて画像の視覚空間とのマッピングを学ぶことである。
本稿では,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric propagation Network (IPN)を提案する。
IPNは3つの人気のあるゼロショット学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-03T12:45:38Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。