論文の概要: Mobile-Former: Bridging MobileNet and Transformer
- arxiv url: http://arxiv.org/abs/2108.05895v1
- Date: Thu, 12 Aug 2021 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:42:23.532532
- Title: Mobile-Former: Bridging MobileNet and Transformer
- Title(参考訳): Mobile-Former: MobileNetとTransformerのブリッジ
- Authors: Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and
Xiaoyi Dong and Lu Yuan and Zicheng Liu
- Abstract要約: 我々はMobileNetとTransformerの並列設計であるMobile-Formerについて述べる。
Mobile-Formerは計算効率が良いだけでなく、より表現力があり、低FLOPでMobileNetV3を上回っている。
- 参考スコア(独自算出の注目度): 42.60008028063716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Mobile-Former, a parallel design of MobileNet and Transformer with
a two-way bridge in between. This structure leverages the advantage of
MobileNet at local processing and transformer at global interaction. And the
bridge enables bidirectional fusion of local and global features. Different
with recent works on vision transformer, the transformer in Mobile-Former
contains very few tokens (e.g. less than 6 tokens) that are randomly
initialized, resulting in low computational cost. Combining with the proposed
light-weight cross attention to model the bridge, Mobile-Former is not only
computationally efficient, but also has more representation power,
outperforming MobileNetV3 at low FLOP regime from 25M to 500M FLOPs on ImageNet
classification. For instance, it achieves 77.9\% top-1 accuracy at 294M FLOPs,
gaining 1.3\% over MobileNetV3 but saving 17\% of computations. When
transferring to object detection, Mobile-Former outperforms MobileNetV3 by 8.6
AP.
- Abstract(参考訳): 本稿では,モバイルネットとトランスフォーマの並列設計であるmobile-formerについて述べる。
この構造は、ローカル処理におけるMobileNetの利点とグローバルインタラクションにおけるトランスフォーマーを利用する。
そしてこの橋は、ローカルとグローバル機能の双方向の融合を可能にする。
近年のvision transformerと異なり、mobile-formerのtransformerにはごくわずかなトークン(例えば)が含まれている。
ランダムに初期化されるトークンは6つ未満で、計算コストが低くなります。
提案された軽量クロスアテンションと組み合わせることで、Mobile-Formerは計算効率が向上するだけでなく、表示能力も向上し、画像Net分類上の25Mから500MのFLOPよりも低FLOPでMobileNetV3を上回っている。
例えば、294M FLOPsで77.9\%のTop-1精度を実現し、MobileNetV3で1.3\%を獲得したが、17\%の計算を節約した。
オブジェクト検出に転送する場合、Mobile-FormerはMobileNetV3を8.6 APで上回る。
関連論文リスト
- Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - MobileOne: An Improved One millisecond Mobile Backbone [14.041480018494394]
モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々は,iPhone12で1ミリ秒未満の推論時間を実現した,効率的なバックボーンMobileOneを設計する。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-06-08T17:55:11Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z) - MoCoViT: Mobile Convolutional Vision Transformer [13.233314183471213]
モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
論文 参考訳(メタデータ) (2022-05-25T10:21:57Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision
Transformer [24.47196590256829]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。
以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-05T17:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。