論文の概要: Advanced Capsule Networks via Context Awareness
- arxiv url: http://arxiv.org/abs/1903.07497v3
- Date: Sat, 16 Sep 2023 08:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 02:29:30.432150
- Title: Advanced Capsule Networks via Context Awareness
- Title(参考訳): 文脈認識による高度なカプセルネットワーク
- Authors: Nguyen Huu Phong and Bernardete Ribeiro
- Abstract要約: Capsule Networks (CN)は、Deep Learning (DL)コミュニティ向けの新しいアーキテクチャを提供する。
本研究では,画像復元を改良しつつ,CNの設計を改善した。
我々は、アメリカ手話(ASL)の指を打つアルファベットについて、我々のモデルを評価する。
- 参考スコア(独自算出の注目度): 1.876462046907555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capsule Networks (CN) offer new architectures for Deep Learning (DL)
community. Though its effectiveness has been demonstrated in MNIST and
smallNORB datasets, the networks still face challenges in other datasets for
images with distinct contexts. In this research, we improve the design of CN
(Vector version) namely we expand more Pooling layers to filter image
backgrounds and increase Reconstruction layers to make better image
restoration. Additionally, we perform experiments to compare accuracy and speed
of CN versus DL models. In DL models, we utilize Inception V3 and DenseNet V201
for powerful computers besides NASNet, MobileNet V1 and MobileNet V2 for small
and embedded devices. We evaluate our models on a fingerspelling alphabet
dataset from American Sign Language (ASL). The results show that CNs perform
comparably to DL models while dramatically reducing training time. We also make
a demonstration and give a link for the purpose of illustration.
- Abstract(参考訳): Capsule Networks (CN)は、Deep Learning (DL)コミュニティ向けの新しいアーキテクチャを提供する。
この効果はMNISTやSmallNORBのデータセットで実証されているが、異なるコンテキストを持つ画像の他のデータセットでは、ネットワークは依然として課題に直面している。
本研究では,cn (vector version) の設計,すなわち,プール層を拡大して画像背景をフィルタし,復元層を増加させ,画像復元性を向上させる。
さらに,CNモデルとDLモデルの精度と速度を比較する実験を行った。
dlモデルでは、inception v3 と densenet v201 をnasnet、mobilenet v1、mobilenet v2 以外の強力なコンピュータで、小型および組み込みデバイスで使用する。
我々は、アメリカ手話(asl)のアルファベットデータセットを用いて、モデルを評価する。
その結果,CNはDLモデルと同等に動作し,トレーニング時間を劇的に短縮した。
私たちはまた、イラストの目的のためにデモを行い、リンクを与えます。
関連論文リスト
- Do Vision-Language Models Understand Compound Nouns? [50.00532752250206]
CLIPのようなオープン語彙の視覚言語モデル(VLM)は、対照的な損失を用いて訓練され、テキストから画像への検索のための有望な新しいパラダイムとして登場した。
我々は400個のユニークなCNを持つ新しいベンチマークであるCompunをキュレートし、CNの解釈におけるVLMの有効性を評価する。
テキストプロンプトのための手書きテンプレートを超えて、CLIPのようなモデルで広く使われている別のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-30T16:54:45Z) - Masked Capsule Autoencoders [5.363623643280699]
本稿では,事前学習を自己指導的に活用する最初のカプセルネットワークであるMasked Capsule Autoencoders (MCAE)を提案する。
提案するMCAEモデルでは,プリトレーニングステージとしてマスク画像モデリングを使用するようにカプセルネットワークを再構成することにより,この問題を緩和する。
我々は、CNNやViTと同様、Capsule Networksも自己教師付き事前トレーニングの恩恵を受けることができることを示した。
論文 参考訳(メタデータ) (2024-03-07T18:22:03Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - NASiam: Efficient Representation Learning using Neural Architecture
Search for Siamese Networks [76.8112416450677]
シームズネットワークは、自己教師付き視覚表現学習(SSL)を実現するための最も傾向のある方法の1つである。
NASiamは、初めて微分可能なNASを使用して、多層パーセプトロンプロジェクタと予測器(エンコーダ/予測器ペア)を改善する新しいアプローチである。
NASiamは、小規模(CIFAR-10/CIFAR-100)と大規模(画像Net)画像分類データセットの両方で競合性能を達成し、わずか数GPU時間しかかからない。
論文 参考訳(メタデータ) (2023-01-31T19:48:37Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Efficient deep learning models for land cover image classification [0.29748898344267777]
土地利用土地被覆(LULC)画像分類のためのBigEarthNetデータセットを用いて実験を行った。
コンボリューションニューラルネットワーク、マルチ層パーセプトロン、ビジュアルトランスフォーマー、効率的なネットワーク、ワイド残留ネットワーク(WRN)など、さまざまな最先端モデルをベンチマークする。
提案する軽量モデルは、訓練可能なパラメータが桁違いに小さく、平均的なFスコア分類精度が19のLULCクラスすべてに対して4.5%向上し、ベースラインとして使用するResNet50の2倍高速に訓練される。
論文 参考訳(メタデータ) (2021-11-18T00:03:14Z) - Self-Denoising Neural Networks for Few Shot Learning [66.38505903102373]
既存のニューラルアーキテクチャの複数の段階でノイズを追加すると同時に、この付加ノイズに対して堅牢であるように学習する新しいトレーニングスキームを提案する。
このアーキテクチャは、SDNN(Self-Denoising Neural Network)と呼ばれ、現代の畳み込みニューラルネットワークに容易に適用できます。
論文 参考訳(メタデータ) (2021-10-26T03:28:36Z) - Automated Cleanup of the ImageNet Dataset by Model Consensus,
Explainability and Confident Learning [0.0]
ImageNetは、ILSVRC12Netでトレーニングされた様々な畳み込みニューラルネットワーク(CNN)のバックボーンである。
本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動アプリケーションについて述べる。
ImageNet-CleanはSqueezeNetおよびEfficientNet-B0モデルのモデルパフォーマンスを2-2.4%向上させる。
論文 参考訳(メタデータ) (2021-03-30T13:16:35Z) - An Improvement for Capsule Networks using Depthwise Separable
Convolution [1.876462046907555]
カプセルネットワークは、画像の背景が性能に挑戦できるという意味で、コンピュータビジョンにおいて重要な問題に直面している。
本稿では,標準畳み込みをDepthwise Separable Convolutionに置き換えることで,カプセルネットワークのアーキテクチャを改善することを提案する。
新しい設計はモデルの総パラメータを大幅に削減し、安定性を高め、競争精度を提供する。
論文 参考訳(メタデータ) (2020-07-30T00:58:34Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。