論文の概要: Navigating Efficiency in MobileViT through Gaussian Process on Global Architecture Factors
- arxiv url: http://arxiv.org/abs/2406.04820v1
- Date: Fri, 7 Jun 2024 10:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:30:43.526003
- Title: Navigating Efficiency in MobileViT through Gaussian Process on Global Architecture Factors
- Title(参考訳): グローバルアーキテクチャ因子のガウス過程によるMobileViTの効率化
- Authors: Ke Meng, Kai Chen,
- Abstract要約: 我々はガウス過程を利用して、MobileViTの性能とグローバルアーキテクチャ要素の関係を探求する。
本稿では, モデルサイズと計算コストを最小化し, モデル精度を向上する大域的アーキテクチャ因子のマジック4D立方体をツイストする設計原理を提案する。
実験結果から,CNN や移動型 ViT を多種多様なデータセットで大幅に上回る結果が得られた。
- 参考スコア(独自算出の注目度): 11.030156344387732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous techniques have been meticulously designed to achieve optimal architectures for convolutional neural networks (CNNs), yet a comparable focus on vision transformers (ViTs) has been somewhat lacking. Despite the remarkable success of ViTs in various vision tasks, their heavyweight nature presents challenges of computational costs. In this paper, we leverage the Gaussian process to systematically explore the nonlinear and uncertain relationship between performance and global architecture factors of MobileViT, such as resolution, width, and depth including the depth of in-verted residual blocks and the depth of ViT blocks, and joint factors including resolution-depth and resolution-width. We present design principles twisting magic 4D cube of the global architecture factors that minimize model sizes and computational costs with higher model accuracy. We introduce a formula for downsizing architectures by iteratively deriving smaller MobileViT V2, all while adhering to a specified constraint of multiply-accumulate operations (MACs). Experiment results show that our formula significantly outperforms CNNs and mobile ViTs across diversified datasets
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の最適なアーキテクチャを実現するために、多くの技術が慎重に設計されてきたが、視覚トランスフォーマー(ViT)に匹敵する焦点は、やや不足していた。
様々なビジョンタスクにおけるViTの顕著な成功にもかかわらず、その重い性質は計算コストの課題を提示している。
本稿では, ガウス法を用いて, 解像度, 幅, 深さなどのMobileViTの性能要因と大域的アーキテクチャ要因の非線型的・不確実な関係を系統的に検討する。
本稿では, モデルサイズと計算コストを最小化し, モデル精度を向上する大域的アーキテクチャ因子のマジック4D立方体をツイストする設計原理を提案する。
我々は,最小限の MobileViT V2 を反復的に導出して,特定の乗算演算(MAC)の制約に固執しながら,アーキテクチャを縮小する公式を導入する。
実験結果から,我々の公式は多種多様なデータセット間でCNNやモバイルVTよりも優れていた。
関連論文リスト
- Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。
その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。
構築した自己意識を近似するFibottention Architectureを提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - A survey on efficient vision transformers: algorithms, techniques, and
performance benchmarking [19.65897437342896]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションに取り組むために人気が高まり、広く使われている。
本稿では,ビジョントランスフォーマーを効率的にするための戦略を数学的に定義し,最先端の方法論を記述・議論し,その性能を異なるアプリケーションシナリオで解析する。
論文 参考訳(メタデータ) (2023-09-05T08:21:16Z) - TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search [74.24393546346974]
近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
論文 参考訳(メタデータ) (2023-08-22T13:08:29Z) - Light-Weight Vision Transformer with Parallel Local and Global
Self-Attention [11.255962936937744]
Vision Transformer PLG-ViTを、よりコンパクトで効率的なものに再設計しました。
ImageNet-1K 分類ベンチマークで 79.5$%$ top-1 の精度を達成した。
我々のネットワークは、一般的なビジョンベンチマークで優れた性能を示している。
論文 参考訳(メタデータ) (2023-07-18T10:07:06Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Grafting Vision Transformers [42.71480918208436]
ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
GrafTはグローバルな依存関係とネットワーク全体のマルチスケール情報を考慮している。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算の大部分を共有できる。
論文 参考訳(メタデータ) (2022-10-28T07:07:13Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。