論文の概要: PW-Self: Patch-Wise Self-Supervised Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2310.18651v4
- Date: Sat, 16 Dec 2023 10:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:45:43.740310
- Title: PW-Self: Patch-Wise Self-Supervised Visual Representation Learning
- Title(参考訳): pw-self:パッチによる自己教師付き視覚表現学習
- Authors: Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi
- Abstract要約: 本研究では、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的な次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけることができる、単純で効果的なパッチマッチングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.53006611172769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised visual representation learning traditionally focuses on
image-level instance discrimination. Our study introduces an innovative
dimension by integrating patch-level discrimination into these methodologies.
This integration allows for the simultaneous analysis of both local and global
visual features, thereby enriching the quality of the representations learned.
Initially, the original images undergo spatial augmentation. Subsequently, we
employ a distinctive photometric patch-level augmentation, where each patch is
individually augmented, independent from other patches within the same view.
This approach generates a diverse training dataset with distinct color
variations in each segment. The augmented images are then processed through a
self-distillation learning framework, utilizing the Vision Transformer (ViT) as
its backbone. The proposed method minimizes the representation distances across
both image and patch levels to capture details from macro to micro
perspectives. To this end, we present a simple yet effective patch-matching
algorithm that can find the corresponding patches across the augmented views.
Thanks to the efficient structure of the patch-matching algorithm, our method
reduces computational complexity compared to similar approaches. Consequently,
we achieve an advanced understanding of the model without adding significant
computational requirements. We have extensively pre-trained our method on
datasets of varied scales, such as Cifar10, ImageNet-100, and ImageNet-1K. It
demonstrates superior performance over state-of-the-art self-supervised
representation learning methods in image classification and downstream tasks,
such as copy detection and image retrieval. The implementation of our method is
accessible on GitHub.
- Abstract(参考訳): 自己監督型視覚表現学習は、伝統的にイメージレベルのインスタンス識別に焦点を当てている。
本研究は,パッチレベルの識別をこれらの手法に組み込むことにより,革新的な次元を導入する。
この統合により、局所的およびグローバルな視覚特徴の同時解析が可能となり、学習した表現の質が向上する。
当初、オリジナル画像は空間的拡張を受ける。
その後、各パッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
このアプローチは、各セグメントで異なる色の異なる多様なトレーニングデータセットを生成する。
拡張イメージは自己蒸留学習フレームワークを通じて処理され、ViT(Vision Transformer)をバックボーンとして利用する。
提案手法は画像とパッチのレベルでの表現距離を最小化し,マクロからマイクロまでの詳細を捉える。
そこで本研究では,拡張ビューにまたがって対応するパッチを見つけることができる,単純かつ効果的なパッチマッチングアルゴリズムを提案する。
パッチマッチングアルゴリズムの効率的な構造により,本手法は類似の手法と比較して計算複雑性を低減させる。
その結果,重要な計算要件を付加することなく,モデルの高度な理解を得ることができた。
我々は、Cifar10、ImageNet-100、ImageNet-1Kなどの様々なスケールのデータセットに対して、この手法を広範囲に事前訓練してきた。
画像分類や下流タスク,例えばコピー検出や画像検索において,最先端の自己教師付き表現学習法よりも優れた性能を示す。
私たちのメソッドの実装はGitHubからアクセスできます。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。