論文の概要: FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization
- arxiv url: http://arxiv.org/abs/2303.14189v2
- Date: Thu, 17 Aug 2023 21:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 00:26:07.410027
- Title: FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization
- Title(参考訳): FastViT:構造リパラメータを用いた高速ハイブリッドビジョントランス
- Authors: Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel,
Anurag Ranjan
- Abstract要約: 我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
- 参考スコア(独自算出の注目度): 14.707312504365376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent amalgamation of transformer and convolutional designs has led to
steady improvements in accuracy and efficiency of the models. In this work, we
introduce FastViT, a hybrid vision transformer architecture that obtains the
state-of-the-art latency-accuracy trade-off. To this end, we introduce a novel
token mixing operator, RepMixer, a building block of FastViT, that uses
structural reparameterization to lower the memory access cost by removing
skip-connections in the network. We further apply train-time
overparametrization and large kernel convolutions to boost accuracy and
empirically show that these choices have minimal effect on latency. We show
that - our model is 3.5x faster than CMT, a recent state-of-the-art hybrid
transformer architecture, 4.9x faster than EfficientNet, and 1.9x faster than
ConvNeXt on a mobile device for the same accuracy on the ImageNet dataset. At
similar latency, our model obtains 4.2% better Top-1 accuracy on ImageNet than
MobileOne. Our model consistently outperforms competing architectures across
several tasks -- image classification, detection, segmentation and 3D mesh
regression with significant improvement in latency on both a mobile device and
a desktop GPU. Furthermore, our model is highly robust to out-of-distribution
samples and corruptions, improving over competing robust models. Code and
models are available at https://github.com/apple/ml-fastvit.
- Abstract(参考訳): 近年の変圧器と畳み込み設計の融合により、モデルの精度と効率が着実に改善されている。
本稿では,最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
この目的のために,FastViTのビルディングブロックである新しいトークンミキシング演算子RepMixerを導入する。
さらに、列車時間オーバーパラメータ化と大きなカーネル畳み込みを適用して精度を高め、これらの選択が遅延に与える影響を実証的に示します。
我々のモデルは、最近の最先端ハイブリッドトランスフォーマーアーキテクチャであるCMTよりも3.5倍速く、EfficientNetより4.9倍速く、ImageNetデータセットと同じ精度でモバイルデバイス上のConvNeXtより1.9倍速い。
同様のレイテンシでは、MobileOneよりもImageNetのTop-1精度が4.2%向上しています。
私たちのモデルは、画像分類、検出、セグメンテーション、および3Dメッシュレグレッションといった、いくつかのタスクで競合するアーキテクチャを一貫して上回ります。
さらに,本モデルは分布外サンプルや腐敗に対して非常に堅牢であり,競合するロバストモデルよりも優れている。
コードとモデルはhttps://github.com/apple/ml-fastvitで入手できる。
関連論文リスト
- SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design [5.962184741057505]
本稿では,メモリ効率のよい設計レベルでの計算冗長性に対処することを目的とする。
より大きなストライドのパッチフィクスを使用するとメモリアクセスコストが削減されるだけでなく、競争性能も向上することがわかった。
SHViTは、最先端の速度精度トレードオフを得る単一ヘッドビジョン変換器である。
論文 参考訳(メタデータ) (2024-01-29T09:12:23Z) - FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Making DensePose fast and light [78.49552144907513]
このタスクを解くことができる既存のニューラルネットワークモデルは、非常にパラメータ化されている。
現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドのインフラをサポートし、安定したインターネット接続が必要である。
本研究では,DensePose R-CNNモデルのアーキテクチャを再設計することで,最終的なネットワークがその精度の大部分を維持しつつ,より軽量で高速なネットワークを実現することを目的とする。
論文 参考訳(メタデータ) (2020-06-26T19:42:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。