論文の概要: Local-Global Self-Supervised Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2310.18651v2
- Date: Mon, 6 Nov 2023 07:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:46:52.874945
- Title: Local-Global Self-Supervised Visual Representation Learning
- Title(参考訳): 局所的自己監督型視覚表現学習
- Authors: Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi
- Abstract要約: 本稿では,画像の拡張ビュー全体にわたって対応するパッチを見つけるパッチマッチングアルゴリズムを提案する。
モデルはCLSトークンだけでなく、対応するパッチ間の表現距離を最小化する。
提案手法は、画像分類と下流タスクの両方において、最先端の画像レベルの表現学習方法より優れていることを示す。
- 参考スコア(独自算出の注目度): 5.53006611172769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised representation learning methods mainly focus on image-level
instance discrimination. This study explores the potential benefits of
incorporating patch-level discrimination into existing methods to enhance the
quality of learned representations by simultaneously looking at local and
global visual features. Towards this idea, we present a straightforward yet
effective patch-matching algorithm that can find the corresponding patches
across the augmented views of an image. The augmented views are subsequently
fed into a self-supervised learning framework employing Vision Transformer
(ViT) as its backbone. The result is the generation of both image-level and
patch-level representations. Leveraging the proposed patch-matching algorithm,
the model minimizes the representation distance between not only the CLS tokens
but also the corresponding patches. As a result, the model gains a more
comprehensive understanding of both the entirety of the image as well as its
finer details. We pretrain the proposed method on small, medium, and
large-scale datasets. It is shown that our approach could outperform
state-of-the-art image-level representation learning methods on both image
classification and downstream tasks. Keywords: Self-Supervised Learning; Visual
Representations; Local-Global Representation Learning; Patch-Wise
Representation Learning; Vision Transformer (ViT)
- Abstract(参考訳): 自己教師付き表現学習法は主に画像レベルのインスタンス識別に焦点をあてる。
本研究は,既存の手法にパッチレベルの識別を組み込むことによる,局所的およびグローバル的な視覚特徴を同時に見ることにより,学習表現の品質を向上させることによる潜在的メリットを検討する。
このアイデアに向けて、画像の拡張ビューにまたがって対応するパッチを見つけることができる、単純で効果的なパッチマッチングアルゴリズムを提案する。
その後、拡張ビューはViT(Vision Transformer)をバックボーンとする自己教師型学習フレームワークに入力される。
その結果、イメージレベルとパッチレベルの両方の表現が生成される。
提案するパッチマッチングアルゴリズムを利用して,clsトークンだけでなく,対応するパッチ間の表現距離を最小化する。
その結果、このモデルは画像全体とより詳細な詳細の両方をより包括的に理解するようになる。
提案手法を小規模,中規模,大規模データセットで事前学習する。
本手法は,画像分類と下流タスクの両方において,最先端のイメージレベル表現学習手法を上回ることができることを示す。
キーワード:自己監督学習、視覚表現、局所言語表現学習、パッチワイズ表現学習、視覚変換器(ViT)
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。