論文の概要: Improving Auto-Encoders' self-supervised image classification using
pseudo-labelling via data augmentation and the perceptual loss
- arxiv url: http://arxiv.org/abs/2012.03322v1
- Date: Sun, 6 Dec 2020 17:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:03:34.106835
- Title: Improving Auto-Encoders' self-supervised image classification using
pseudo-labelling via data augmentation and the perceptual loss
- Title(参考訳): データ拡張と知覚損失による擬似ラベルによる自己教師付き画像分類の改善
- Authors: Aymene Mohammed Bouayed and Karim Atif and Rachid Deriche and
Abdelhakim Saim
- Abstract要約: 擬似ラベルのない画像に新しい手法を導入し、オートエンコーダを訓練して自己教師付きで分類する。
提案手法は,まずランダムにサンプル化したデータ拡張変換をトレーニング画像に適用する。
オートエンコーダを用いて、拡張画像の各セットとその対応する擬似ラベル間のマッピングを学習する。
- 参考スコア(独自算出の注目度): 0.9558392439655015
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we introduce a novel method to pseudo-label unlabelled images
and train an Auto-Encoder to classify them in a self-supervised manner that
allows for a high accuracy and consistency across several datasets. The
proposed method consists of first applying a randomly sampled set of data
augmentation transformations to each training image. As a result, each initial
image can be considered as a pseudo-label to its corresponding augmented ones.
Then, an Auto-Encoder is used to learn the mapping between each set of the
augmented images and its corresponding pseudo-label. Furthermore, the
perceptual loss is employed to take into consideration the existing
dependencies between the pixels in the same neighbourhood of an image. This
combination encourages the encoder to output richer encodings that are highly
informative of the input's class. Consequently, the Auto-Encoder's performance
on unsupervised image classification is improved both in termes of stability
and accuracy becoming more uniform and more consistent across all tested
datasets. Previous state-of-the-art accuracy on the MNIST, CIFAR-10 and SVHN
datasets is improved by 0.3\%, 3.11\% and 9.21\% respectively.
- Abstract(参考訳): 本稿では,擬似ラベルのない画像に新しい手法を導入し,オートエンコーダを訓練して自己教師付きで分類し,複数のデータセット間で高い精度と一貫性を実現する。
提案手法は、まず各トレーニング画像にランダムにサンプリングされたデータ拡張変換セットを適用することで構成する。
その結果、それぞれの初期画像は、対応する拡張画像に対する擬似ラベルと見なすことができる。
次に、オートエンコーダを用いて、拡張画像の各セットとその対応する擬似ラベル間のマッピングを学習する。
さらに、画像の同じ近傍にある画素間の既存の依存関係を考慮するために、知覚損失を用いる。
この組み合わせにより、エンコーダは入力のクラスに高い情報を与えるリッチエンコーディングを出力する。
その結果、教師なし画像分類におけるオートエンコーダの性能は、安定性と精度の両面で改善され、全てのテストデータセットでより均一で一貫性がある。
これまでのMNIST、CIFAR-10、SVHNデータセットの精度は0.3\%、3.11\%、9.21\%向上した。
関連論文リスト
- GlobalMamba: Global Image Serialization for Vision Mamba [73.50475621164037]
視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。
既存のほとんどの方法はパッチベースの画像トークン化を採用し、因果処理のためにそれらを1Dシーケンスにフラット化する。
本稿では,グローバルな画像シリアライズ手法を提案し,その画像を因果トークンのシーケンスに変換する。
論文 参考訳(メタデータ) (2024-10-14T09:19:05Z) - Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation for
Semi-Supervised Medical Image Segmentation [13.707121013895929]
本稿では, Pseudo-Labels Guided Data Augmentation を用いた新しい半教師付き学習手法である Dual-Decoder Consistency を提案する。
我々は、同じエンコーダを維持しながら、生徒と教師のネットワークに異なるデコーダを使用します。
ラベルのないデータから学習するために、教師ネットワークによって生成された擬似ラベルを作成し、擬似ラベルでトレーニングデータを増強する。
論文 参考訳(メタデータ) (2023-08-31T09:13:34Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels [70.45813147115126]
部分ラベル付きマルチラベル画像認識(MLR-PL)は、アノテーションのコストを大幅に削減し、大規模なMLRを促進する。
それぞれの画像と異なる画像の間に強い意味的相関が存在することがわかった。
これらの相関関係は、未知のラベルを取得するために、既知のラベルが持つ知識を転送するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T08:37:38Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Semantic similarity metrics for learned image registration [10.355938901584565]
画像登録のための意味的類似度尺度を提案する。
このアプローチは、学習に基づく登録モデルの最適化を促進するデータセット固有の特徴を学習する。
自動エンコーダを用いた非監視的アプローチと、補助セグメンテーションデータを用いた半監督的アプローチの両方をトレーニングし、画像登録のための意味的特徴を抽出します。
論文 参考訳(メタデータ) (2021-04-20T15:23:58Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z) - General Multi-label Image Classification with Transformers [30.58248625606648]
視覚的特徴やラベル間の複雑な依存関係を利用するための分類変換器(C-Tran)を提案する。
本手法の重要な要素は,3次符号化方式を用いてラベルの状態を表すラベルマスク訓練目標である。
我々のモデルは、COCOやVisual Genomeのような挑戦的なデータセットに対する最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-11-27T23:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。