論文の概要: Capsule Network based Contrastive Learning of Unsupervised Visual
Representations
- arxiv url: http://arxiv.org/abs/2209.11276v1
- Date: Thu, 22 Sep 2022 19:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 13:35:21.887393
- Title: Capsule Network based Contrastive Learning of Unsupervised Visual
Representations
- Title(参考訳): カプセルネットワークを用いた教師なし視覚表現のコントラスト学習
- Authors: Harsh Panwar, Ioannis Patras
- Abstract要約: Contrastive Capsule (CoCa) Modelは、新しいアーキテクチャ、トレーニング、テストアルゴリズムと対照的な損失を用いた、シームズスタイルのCapsule Networkである。
我々は、教師なし画像分類CIFAR-10データセットのモデルを評価し、トップ1テスト精度70.50%、トップ5テスト精度98.10%を達成する。
効率的なアーキテクチャのため、我々のモデルは、教師なし学習と教師なし学習の両方において、現在のSOTAの31倍のパラメータと71倍のFLOPを持つ。
- 参考スコア(独自算出の注目度): 13.592112044121683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capsule Networks have shown tremendous advancement in the past decade,
outperforming the traditional CNNs in various task due to it's equivariant
properties. With the use of vector I/O which provides information of both
magnitude and direction of an object or it's part, there lies an enormous
possibility of using Capsule Networks in unsupervised learning environment for
visual representation tasks such as multi class image classification. In this
paper, we propose Contrastive Capsule (CoCa) Model which is a Siamese style
Capsule Network using Contrastive loss with our novel architecture, training
and testing algorithm. We evaluate the model on unsupervised image
classification CIFAR-10 dataset and achieve a top-1 test accuracy of 70.50% and
top-5 test accuracy of 98.10%. Due to our efficient architecture our model has
31 times less parameters and 71 times less FLOPs than the current SOTA in both
supervised and unsupervised learning.
- Abstract(参考訳): カプセルネットワークは過去10年で著しく進歩し、同値な性質のため、様々なタスクで伝統的なcnnを上回っている。
物体の大きさと方向の両方の情報を提供するベクターi/oを使用することで、マルチクラス画像分類のような視覚的表現タスクのための教師なし学習環境においてカプセルネットワークを使用する可能性は非常に大きい。
本稿では,新しいアーキテクチャ,トレーニング,テストアルゴリズムとの対比損失を用いた,シームズスタイルのカプセルネットワークであるContrastive Capsule(CoCa)モデルを提案する。
教師なし画像分類cifar-10データセットのモデルを評価し,70.50%のtop-1テスト精度と98.10%のtop-5テスト精度を達成する。
効率的なアーキテクチャのため、我々のモデルは、教師なし学習と教師なし学習の両方において、現在のSOTAの31倍のパラメータと71倍のFLOPを持つ。
関連論文リスト
- Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - Masked Capsule Autoencoders [5.363623643280699]
本稿では,事前学習を自己指導的に活用する最初のカプセルネットワークであるMasked Capsule Autoencoders (MCAE)を提案する。
提案するMCAEモデルでは,プリトレーニングステージとしてマスク画像モデリングを使用するようにカプセルネットワークを再構成することにより,この問題を緩和する。
我々は、CNNやViTと同様、Capsule Networksも自己教師付き事前トレーニングの恩恵を受けることができることを示した。
論文 参考訳(メタデータ) (2024-03-07T18:22:03Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Large Neural Networks Learning from Scratch with Very Few Data and
without Regularization [0.0]
数百万の重みを持つ非常に大きな畳み込みニューラルネットワークが、ほんのわずかのトレーニングサンプルで学習できることを示します。
重量1億4000万のVGG19は、飛行機とバイクの区別を95%の精度で学べる。
論文 参考訳(メタデータ) (2022-05-18T10:08:28Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z) - Identifying and Compensating for Feature Deviation in Imbalanced Deep
Learning [59.65752299209042]
このようなシナリオ下でのConvNetの学習について検討する。
私たちは、ConvNetがマイナーなクラスにかなり適合していることに気づきました。
クラス依存型温度トレーニング(CDT)のConvNetの導入を提案する。
論文 参考訳(メタデータ) (2020-01-06T03:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。