論文の概要: Evolving Image Compositions for Feature Representation Learning
- arxiv url: http://arxiv.org/abs/2106.09011v1
- Date: Wed, 16 Jun 2021 17:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:31:53.126086
- Title: Evolving Image Compositions for Feature Representation Learning
- Title(参考訳): 特徴表現学習のための画像合成の進化
- Authors: Paola Cascante-Bonilla, Arshdeep Sekhon, Yanjun Qi, Vicente Ordonez
- Abstract要約: PatchMixは、グリッドのようなパターンで一対のイメージからパッチを合成することで、新しいサンプルを作成するデータ拡張手法である。
PatchMixを使用したImageNetでトレーニングされたResNet-50モデルは、幅広いベンチマークで優れた転送学習能力を示している。
- 参考スコア(独自算出の注目度): 22.22790506995431
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional neural networks for visual recognition require large amounts of
training samples and usually benefit from data augmentation. This paper
proposes PatchMix, a data augmentation method that creates new samples by
composing patches from pairs of images in a grid-like pattern. These new
samples' ground truth labels are set as proportional to the number of patches
from each image. We then add a set of additional losses at the patch-level to
regularize and to encourage good representations at both the patch and image
levels. A ResNet-50 model trained on ImageNet using PatchMix exhibits superior
transfer learning capabilities across a wide array of benchmarks. Although
PatchMix can rely on random pairings and random grid-like patterns for mixing,
we explore evolutionary search as a guiding strategy to discover optimal
grid-like patterns and image pairing jointly. For this purpose, we conceive a
fitness function that bypasses the need to re-train a model to evaluate each
choice. In this way, PatchMix outperforms a base model on CIFAR-10 (+1.91),
CIFAR-100 (+5.31), Tiny Imagenet (+3.52), and ImageNet (+1.16) by significant
margins, also outperforming previous state-of-the-art pairwise augmentation
strategies.
- Abstract(参考訳): 視覚認識のための畳み込みニューラルネットワークは大量のトレーニングサンプルを必要とし、通常はデータ拡張の恩恵を受ける。
本稿では,グリッド状のパターンで一対のイメージからパッチを合成し,新しいサンプルを作成するデータ拡張手法であるPatchMixを提案する。
これらの新しいサンプルの基底真理ラベルは、各画像からのパッチの数に比例して設定される。
次に、パッチレベルで追加の損失を追加して、正規化し、パッチレベルとイメージレベルの両方で良い表現を奨励します。
PatchMixを使用したImageNetでトレーニングされたResNet-50モデルは、幅広いベンチマークで優れた転送学習能力を示している。
PatchMixは、ランダムなペアリングとランダムなグリッドライクなパターンを混合に利用できるが、最適なグリッドライクなパターンとイメージペアリングを共同で発見するためのガイド戦略として進化的探索を探索する。
この目的のために、各選択を評価するためにモデルを再トレーニングする必要を回避したフィットネス機能を考える。
このように、PatchMixはCIFAR-10(+1.91)、CIFAR-100(+5.31)、Tiny Imagenet(+3.52)、ImageNet(+1.16)のベースモデルよりも大きなマージンで性能を上げ、また従来の最先端のペアワイズ戦略よりも優れている。
関連論文リスト
- Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Inter-Instance Similarity Modeling for Contrastive Learning [22.56316444504397]
視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案する。
既存のサンプルミキシング手法と比較して、我々のPatchMixは2つ以上の画像を柔軟に効率的に混ぜることができる。
提案手法は,ImageNet-1KとCIFARの両方のデータセットにおいて,従来の最先端技術よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-06-21T13:03:47Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z) - Correlation Verification for Image Retrieval [15.823918683848877]
相関検証ネットワーク (CVNet) という新しい画像検索手法を提案する。
CVNetは、様々な画像対から多様な幾何マッチングパターンを学習しながら、高密度特徴相関を画像類似性に圧縮する。
提案するネットワークは,有意なマージンを有する複数の検索ベンチマークにおいて,最先端の性能を示す。
論文 参考訳(メタデータ) (2022-04-04T13:18:49Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z) - SaliencyMix: A Saliency Guided Data Augmentation Strategy for Better
Regularization [9.126576583256506]
本研究では,ディープラーニングモデルの一般化能力を向上させるために,SaliencyMixを提案する。
SaliencyMixは、サリエンシマップの助けを借りて代表画像パッチを慎重に選択し、この表示パッチと対象画像とを混合する。
SaliencyMixは、ImageNet分類上のResNet-50およびResNet-101アーキテクチャにおいて、21.26%と20.09%の21.26%の既知のトップ1エラーを達成している。
論文 参考訳(メタデータ) (2020-06-02T17:18:34Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。