論文の概要: ViR:the Vision Reservoir
- arxiv url: http://arxiv.org/abs/2112.13545v2
- Date: Wed, 29 Dec 2021 06:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 13:05:19.875060
- Title: ViR:the Vision Reservoir
- Title(参考訳): ViR:Vision Reservoir
- Authors: Xian Wei, Bin Wang, Mingsong Chen, Ji Yuan, Hai Lan, Jiehuang Shi,
Xuan Tang, Bo Jin, Guozhang Chen, Dongping Yang
- Abstract要約: Vision Reservoir Computing (ViR) は視覚変換器 (ViT) と平行して画像分類を行う。
各画像を一定長さのトークン列に分割することで、ViRは、ほぼ完全に接続された位相を持つ純粋な貯水池を構築し、ViTのTransformerモジュールを置き換える。
ViRのパラメータの数はViTの約15%または5%であり、メモリフットプリントはViTの約20%から40%である。
- 参考スコア(独自算出の注目度): 10.881974985012839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The most recent year has witnessed the success of applying the Vision
Transformer (ViT) for image classification. However, there are still evidences
indicating that ViT often suffers following two aspects, i) the high
computation and the memory burden from applying the multiple Transformer layers
for pre-training on a large-scale dataset, ii) the over-fitting when training
on small datasets from scratch. To address these problems, a novel method,
namely, Vision Reservoir computing (ViR), is proposed here for image
classification, as a parallel to ViT. By splitting each image into a sequence
of tokens with fixed length, the ViR constructs a pure reservoir with a nearly
fully connected topology to replace the Transformer module in ViT. Two kinds of
deep ViR models are subsequently proposed to enhance the network performance.
Comparative experiments between the ViR and the ViT are carried out on several
image classification benchmarks. Without any pre-training process, the ViR
outperforms the ViT in terms of both model and computational complexity.
Specifically, the number of parameters of the ViR is about 15% even 5% of the
ViT, and the memory footprint is about 20% to 40% of the ViT. The superiority
of the ViR performance is explained by Small-World characteristics, Lyapunov
exponents, and memory capacity.
- Abstract(参考訳): 最新の年では、画像分類にViT(Vision Transformer)を適用することに成功した。
しかし、ViTが2つの側面に苦しむことを示す証拠がまだ残っている。
一 大規模データセットにおける事前学習のための複数の変圧器層の適用による高計算とメモリ負担
二 小さいデータセットをスクラッチからトレーニングするときの過度な適合
これらの問題に対処するために,vitと並行して画像分類のための新しい手法であるvision reservoir computing (vir) が提案されている。
各画像を一定長さのトークン列に分割することで、ViRは、ほぼ完全に接続された位相を持つ純粋な貯水池を構築し、ViTのTransformerモジュールを置き換える。
その後、ネットワーク性能を向上させるために2種類のディープViRモデルが提案されている。
いくつかの画像分類ベンチマークにおいて、ViRとViTの比較実験を行った。
事前学習プロセスがなければ、ViRはモデルと計算の複雑さの両方でViTより優れている。
具体的には、ViRのパラメータの数はViTの約15%または5%であり、メモリフットプリントはViTの約20%から40%である。
ViR性能の優位性は、Small-World特性、リアプノフ指数、メモリ容量によって説明される。
関連論文リスト
- ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - RaViTT: Random Vision Transformer Tokens [0.41776442767736593]
視覚変換器(ViT)は、大きな注釈付きデータセットが利用できる画像分類問題にうまく適用されている。
既存のViTに組み込んだランダムパッチサンプリング戦略であるRaViTT(Random Vision Transformer Tokens)を提案する。
論文 参考訳(メタデータ) (2023-06-19T14:24:59Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。