論文の概要: Sequencer: Deep LSTM for Image Classification
- arxiv url: http://arxiv.org/abs/2205.01972v1
- Date: Wed, 4 May 2022 09:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 13:39:36.176854
- Title: Sequencer: Deep LSTM for Image Classification
- Title(参考訳): 画像分類のための深部LSTM
- Authors: Yuki Tatsunami, Masato Taki
- Abstract要約: 最近のコンピュータビジョン研究において、ViT(Vision Transformer)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした。
提案するSequencerは,ViTに代わる,斬新で競争力のあるアーキテクチャである。
その単純さにもかかわらず、いくつかの実験はSequencerが素晴らしい性能を発揮することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent computer vision research, the advent of the Vision Transformer
(ViT) has rapidly revolutionized various architectural design efforts: ViT
achieved state-of-the-art image classification performance using self-attention
found in natural language processing, and MLP-Mixer achieved competitive
performance using simple multi-layer perceptrons. In contrast, several studies
have also suggested that carefully redesigned convolutional neural networks
(CNNs) can achieve advanced performance comparable to ViT without resorting to
these new ideas. Against this background, there is growing interest in what
inductive bias is suitable for computer vision. Here we propose Sequencer, a
novel and competitive architecture alternative to ViT that provides a new
perspective on these issues. Unlike ViTs, Sequencer models long-range
dependencies using LSTMs rather than self-attention layers. We also propose a
two-dimensional version of Sequencer module, where an LSTM is decomposed into
vertical and horizontal LSTMs to enhance performance. Despite its simplicity,
several experiments demonstrate that Sequencer performs impressively well:
Sequencer2D-L, with 54M parameters, realizes 84.6\% top-1 accuracy on only
ImageNet-1K. Not only that, we show that it has good transferability and the
robust resolution adaptability on double resolution-band.
- Abstract(参考訳): 近年のコンピュータビジョン研究において、視覚変換器(ViT)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした: ViTは自然言語処理で見られる自己認識を用いて最先端の画像分類性能を達成し、MLP-Mixerは単純な多層パーセプトロンを用いて競争性能を達成した。
対照的に、いくつかの研究は慎重に再設計された畳み込みニューラルネットワーク(cnns)がこれらの新しいアイデアを使わずにvitに匹敵する高度な性能を達成することができることを示唆している。
この背景に対して、インダクティブバイアスがコンピュータビジョンに適しているかへの関心が高まっている。
ここでは、これらの問題に対する新たな視点を提供するViTに代わる、斬新で競争力のあるアーキテクチャであるSequencerを提案する。
ViTとは異なり、Sequencerは自己アテンション層ではなくLSTMを使用して長距離依存関係をモデル化する。
また,Squencerモジュールの2次元バージョンを提案し,LSTMを垂直および水平のLSTMに分解して性能を向上させる。
Sequencer2D-Lは54Mパラメータを持つが、ImageNet-1Kでのみ84.6\%のトップ-1精度を実現する。
それだけでなく、転送性も良好で、ダブルレゾリューションバンドでのロバストな解像度適応性も示しています。
関連論文リスト
- VisionGRU: A Linear-Complexity RNN Model for Efficient Image Analysis [8.10783983193165]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は画像解析の主流モデルである。
本稿では,効率的な画像分類のための新しいRNNアーキテクチャであるVisionGRUを紹介する。
論文 参考訳(メタデータ) (2024-12-24T05:27:11Z) - Slicing Vision Transformer for Flexible Inference [79.35046907288518]
一つのネットワークが複数の小さな ViT を表現できるように,Scala という名前の汎用フレームワークを提案する。
S Scalaは、パラメータが少ないImageNet-1Kで平均1.6%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T05:31:42Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。
我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2021-07-09T17:59:30Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。