論文の概要: HydraViT: Stacking Heads for a Scalable ViT
- arxiv url: http://arxiv.org/abs/2409.17978v1
- Date: Thu, 26 Sep 2024 15:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 16:26:02.267089
- Title: HydraViT: Stacking Heads for a Scalable ViT
- Title(参考訳): HydraViT: スケーラブルなViTのためのスタックヘッド
- Authors: Janek Haberer, Ali Hojjat, Olaf Landsiedel
- Abstract要約: 本稿では,拡張性のあるViTを実現するために,注目ヘッドを積み重ねることで制限に対処する新しいアプローチであるHydraViTを紹介する。
実験の結果,HydraViTは最大10ワークスで拡張性のあるViTを実現し,幅広いリソース制約をカバーできることがわかった。
- 参考スコア(独自算出の注目度): 0.49157446832511503
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The architecture of Vision Transformers (ViTs), particularly the Multi-head
Attention (MHA) mechanism, imposes substantial hardware demands. Deploying ViTs
on devices with varying constraints, such as mobile phones, requires multiple
models of different sizes. However, this approach has limitations, such as
training and storing each required model separately. This paper introduces
HydraViT, a novel approach that addresses these limitations by stacking
attention heads to achieve a scalable ViT. By repeatedly changing the size of
the embedded dimensions throughout each layer and their corresponding number of
attention heads in MHA during training, HydraViT induces multiple subnetworks.
Thereby, HydraViT achieves adaptability across a wide spectrum of hardware
environments while maintaining performance. Our experimental results
demonstrate the efficacy of HydraViT in achieving a scalable ViT with up to 10
subnetworks, covering a wide range of resource constraints. HydraViT achieves
up to 5 p.p. more accuracy with the same GMACs and up to 7 p.p. more accuracy
with the same throughput on ImageNet-1K compared to the baselines, making it an
effective solution for scenarios where hardware availability is diverse or
varies over time. Source code available at https://github.com/ds-kiel/HydraViT.
- Abstract(参考訳): ViT(Vision Transformer)のアーキテクチャ、特にMHA(Multi-head Attention)メカニズムは、相当なハードウェア要求を課している。
携帯電話のような様々な制約のあるデバイスにViTをデプロイするには、異なるサイズの複数のモデルが必要である。
しかし、このアプローチには、各必要なモデルを個別にトレーニングし、保存するといった制限がある。
本稿では,拡張性のあるViTを実現するためにアテンションヘッドを積み重ねることで,これらの制限に対処する新しいアプローチであるHydraViTを紹介する。
HydraViTは、各層に埋め込まれた寸法と、トレーニング中のMHAのアテンションヘッドの数を繰り返し変更することで、複数のサブネットを誘導する。
これによりHydraViTは、幅広いハードウェア環境にまたがって、パフォーマンスを維持しながら適応性を実現する。
実験の結果,HydraViTは最大10サブネットワークで拡張性のあるViTを実現し,幅広いリソース制約をカバーできることを示した。
HydraViTは、同じGMACで最大5 p.p.、ImageNet-1Kで同じスループットで最大7 p.p.の精度を達成する。
ソースコードはhttps://github.com/ds-kiel/HydraViT.comで公開されている。
関連論文リスト
- Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [81.1943823985213]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Compressing Vision Transformers for Low-Resource Visual Learning [7.662469543657508]
Vision Transformer(ViT)とその変種は、画像分類、オブジェクト検出、セマンティックセグメンテーションといったタスクにおいて最先端の精度を提供する。
これらのモデルは大規模で計算量が多いため、モバイルおよびエッジシナリオへのデプロイメントが制限される。
我々は,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚変換器をエッジに持ち込むための一歩を踏み出したい。
論文 参考訳(メタデータ) (2023-09-05T23:33:39Z) - Vision Transformers for Mobile Applications: A Short Survey [0.0]
ビジョントランスフォーマー(ViT)は多くのコンピュータビジョンタスクで最先端のパフォーマンスを実証している。
大規模なViTをデプロイすることは、多くのモバイルデバイスにとってリソースを消費し、不可能である。
モバイルアプリケーション用に特別に設計されたいくつかのViTを調べ、トランスフォーマーのアーキテクチャを変更するか、CNNとトランスフォーマーの組み合わせを中心に構築されていることを観察する。
論文 参考訳(メタデータ) (2023-05-30T19:12:08Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。