論文の概要: HSViT: Horizontally Scalable Vision Transformer
- arxiv url: http://arxiv.org/abs/2404.05196v1
- Date: Mon, 8 Apr 2024 04:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:33:28.628001
- Title: HSViT: Horizontally Scalable Vision Transformer
- Title(参考訳): HSViT:水平にスケーラブルな視覚変換器
- Authors: Chenhao Xu, Chang-Tsun Li, Chee Peng Lim, Douglas Creighton,
- Abstract要約: 本稿では,新しい水平方向拡張型視覚変換器(HSViT)を提案する。
HSViTは最先端のスキームよりも最大10%高いトップ1精度を達成する。
- 参考スコア(独自算出の注目度): 16.46308352393693
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While the Vision Transformer (ViT) architecture gains prominence in computer vision and attracts significant attention from multimedia communities, its deficiency in prior knowledge (inductive bias) regarding shift, scale, and rotational invariance necessitates pre-training on large-scale datasets. Furthermore, the growing layers and parameters in both ViT and convolutional neural networks (CNNs) impede their applicability to mobile multimedia services, primarily owing to the constrained computational resources on edge devices. To mitigate the aforementioned challenges, this paper introduces a novel horizontally scalable vision transformer (HSViT). Specifically, a novel image-level feature embedding allows ViT to better leverage the inductive bias inherent in the convolutional layers. Based on this, an innovative horizontally scalable architecture is designed, which reduces the number of layers and parameters of the models while facilitating collaborative training and inference of ViT models across multiple nodes. The experimental results depict that, without pre-training on large-scale datasets, HSViT achieves up to 10% higher top-1 accuracy than state-of-the-art schemes, ascertaining its superior preservation of inductive bias. The code is available at https://github.com/xuchenhao001/HSViT.
- Abstract(参考訳): Vision Transformer (ViT) アーキテクチャはコンピュータビジョンにおいて注目され、マルチメディアコミュニティから大きな注目を集める一方で、シフト、スケール、回転不変性に関する事前知識(帰納バイアス)の欠如は、大規模なデータセットで事前学習を必要とする。
さらに、ViTと畳み込みニューラルネットワーク(CNN)の両方で成長するレイヤとパラメータは、主にエッジデバイス上の制約された計算リソースのために、モバイルマルチメディアサービスへの適用性を妨げている。
本稿では、上記の課題を軽減するために、新しい水平拡張型視覚変換器(HSViT)を提案する。
具体的には、新しい画像レベルの機能埋め込みにより、ViTは畳み込み層に固有の帰納バイアスをよりよく活用することができる。
これに基づいて、革新的な水平スケーラブルアーキテクチャが設計され、複数のノードにわたるViTモデルの協調的なトレーニングと推論を容易にしながら、モデルのレイヤとパラメータの数を減らす。
実験結果は、大規模なデータセットを事前トレーニングせずに、HSViTは最先端の手法よりも最大10%高いトップ1の精度を達成し、誘導バイアスの優れた保存を保証していることを示している。
コードはhttps://github.com/xuchenhao001/HSViT.comで入手できる。
関連論文リスト
- NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function [1.3812010983144802]
アテンションメカニズムはコンピュータビジョンでビジョントランスフォーマーViTとして利用され、その用途はビジョン領域の多くのタスクに拡張されている。
本稿では、通常のアテンション層をネットワーク内のネットワーク構造に置き換えることで、計算負担を軽減するための標準ViTブロックの代替として、新しい計算ブロックを提案する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Grafting Vision Transformers [42.71480918208436]
ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
GrafTはグローバルな依存関係とネットワーク全体のマルチスケール情報を考慮している。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算の大部分を共有できる。
論文 参考訳(メタデータ) (2022-10-28T07:07:13Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - HRViT: Multi-Scale High-Resolution Vision Transformer [19.751569057142806]
視覚変換器(ViT)は、コンピュータビジョンタスクにおける優れた性能のために多くの注目を集めている。
本稿では,高分解能マルチブランチアーキテクチャと視覚変換器を効率よく統合したHRViTを提案する。
提案されたHRViTはADE20Kで50.20% mIoU、Cityscapesで83.16% mIoUを達成した。
論文 参考訳(メタデータ) (2021-11-01T19:49:52Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。