論文の概要: Masked Capsule Autoencoders
- arxiv url: http://arxiv.org/abs/2403.04724v1
- Date: Thu, 7 Mar 2024 18:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:04:59.959917
- Title: Masked Capsule Autoencoders
- Title(参考訳): マスクカプセルオートエンコーダ
- Authors: Miles Everett, Mingjun Zhong, and Georgios Leontidis
- Abstract要約: 本稿では,事前学習を自己指導的に活用する最初のカプセルネットワークであるMasked Capsule Autoencoders (MCAE)を提案する。
提案するMCAEモデルでは,プリトレーニングステージとしてマスク画像モデリングを使用するようにカプセルネットワークを再構成することにより,この問題を緩和する。
我々は、CNNやViTと同様、Capsule Networksも自己教師付き事前トレーニングの恩恵を受けることができることを示した。
- 参考スコア(独自算出の注目度): 5.363623643280699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Masked Capsule Autoencoders (MCAE), the first Capsule Network that
utilises pretraining in a self-supervised manner. Capsule Networks have emerged
as a powerful alternative to Convolutional Neural Networks (CNNs), and have
shown favourable properties when compared to Vision Transformers (ViT), but
have struggled to effectively learn when presented with more complex data,
leading to Capsule Network models that do not scale to modern tasks. Our
proposed MCAE model alleviates this issue by reformulating the Capsule Network
to use masked image modelling as a pretraining stage before finetuning in a
supervised manner. Across several experiments and ablations studies we
demonstrate that similarly to CNNs and ViTs, Capsule Networks can also benefit
from self-supervised pretraining, paving the way for further advancements in
this neural network domain. For instance, pretraining on the Imagenette
dataset, a dataset of 10 classes of Imagenet-sized images, we achieve not only
state-of-the-art results for Capsule Networks but also a 9% improvement
compared to purely supervised training. Thus we propose that Capsule Networks
benefit from and should be trained within a masked image modelling framework,
with a novel capsule decoder, to improve a Capsule Network's performance on
realistic-sized images.
- Abstract(参考訳): 本稿では,事前学習を自己指導的に行う最初のカプセルネットワークであるMasked Capsule Autoencoders (MCAE)を提案する。
カプセルネットワークは畳み込みニューラルネットワーク(cnns)の強力な代替として出現し、視覚トランスフォーマー(vit)と比較すると好ましい特性を示したが、より複雑なデータを提示することで効果的に学習するのに苦労し、現代のタスクにスケールしないカプセルネットワークモデルへと繋がった。
提案するMCAEモデルでは,カプセルネットワークを改良し,マスク付き画像モデリングを事前学習段階として使用し,教師付きで微調整する。
いくつかの実験とアブレーション研究を通じて、cnnやvitsと同様に、カプセルネットワークは自己教師付き事前訓練の恩恵を受け、このニューラルネットワーク領域におけるさらなる進歩への道を開くことができることを実証した。
例えば、Imagenetサイズの10クラスのデータセットであるImagenetteデータセットの事前トレーニングでは、Capsule Networksの最先端結果だけでなく、純粋に教師付きトレーニングよりも9%改善されています。
そこで本研究では,カプセルネットワークの性能向上のために,新しいカプセルデコーダを備えたマスク付き画像モデリングフレームワークにおいて,カプセルネットワークの利点とトレーニングを行うことを提案する。
関連論文リスト
- Stitched ViTs are Flexible Vision Backbones [51.441023711924835]
我々は、縫合可能なニューラルネットワーク(SN-Net)にインスパイアされ、訓練済みのモデルファミリーを縫合することで、リッチワークをカバーする単一のモデルを生成する。
我々は、下流タスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークSN-Netv2を紹介する。
SN-Netv2は、下流の高密度予測においてSN-Netv1よりも優れた性能を示し、柔軟なビジョンバックボーンとして強力な能力を示している。
論文 参考訳(メタデータ) (2023-06-30T22:05:34Z) - Capsule Network based Contrastive Learning of Unsupervised Visual
Representations [13.592112044121683]
Contrastive Capsule (CoCa) Modelは、新しいアーキテクチャ、トレーニング、テストアルゴリズムと対照的な損失を用いた、シームズスタイルのCapsule Networkである。
我々は、教師なし画像分類CIFAR-10データセットのモデルを評価し、トップ1テスト精度70.50%、トップ5テスト精度98.10%を達成する。
効率的なアーキテクチャのため、我々のモデルは、教師なし学習と教師なし学習の両方において、現在のSOTAの31倍のパラメータと71倍のFLOPを持つ。
論文 参考訳(メタデータ) (2022-09-22T19:05:27Z) - Towards Efficient Capsule Networks [7.1577508803778045]
カプセルネットワークはモデルの説明可能性を高めるために導入され、各カプセルはオブジェクトまたはその部分の明示的な表現である。
本稿では,Capsule Network を用いたプルーニングが,メモリ要件の低減,計算作業,推論とトレーニング時間といった高度な一般化を実現する方法を示す。
論文 参考訳(メタデータ) (2022-08-19T08:03:25Z) - Masked Autoencoders are Robust Data Augmentors [90.34825840657774]
ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。
本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
論文 参考訳(メタデータ) (2022-06-10T02:41:48Z) - SS-3DCapsNet: Self-supervised 3D Capsule Networks for Medical
Segmentation on Less Labeled Data [10.371128893952537]
この研究は、自己教師付き学習によるボリューム医療画像セグメンテーションのためのカプセルネットワークを拡張した。
自己監督型プレトレーニングによる3Dカプセルネットワークは,従来のカプセルネットワークや3D-UNetsよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-01-15T18:42:38Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - An Improvement for Capsule Networks using Depthwise Separable
Convolution [1.876462046907555]
カプセルネットワークは、画像の背景が性能に挑戦できるという意味で、コンピュータビジョンにおいて重要な問題に直面している。
本稿では,標準畳み込みをDepthwise Separable Convolutionに置き換えることで,カプセルネットワークのアーキテクチャを改善することを提案する。
新しい設計はモデルの総パラメータを大幅に削減し、安定性を高め、競争精度を提供する。
論文 参考訳(メタデータ) (2020-07-30T00:58:34Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Subspace Capsule Network [85.69796543499021]
SubSpace Capsule Network (SCN) はカプセルネットワークのアイデアを利用して、エンティティの外観や暗黙的に定義された特性のバリエーションをモデル化する。
SCNは、テスト期間中にCNNと比較して計算オーバーヘッドを発生させることなく、識別モデルと生成モデルの両方に適用することができる。
論文 参考訳(メタデータ) (2020-02-07T17:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。