論文の概要: HRViT: Multi-Scale High-Resolution Vision Transformer
- arxiv url: http://arxiv.org/abs/2111.01236v1
- Date: Mon, 1 Nov 2021 19:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 12:43:22.528683
- Title: HRViT: Multi-Scale High-Resolution Vision Transformer
- Title(参考訳): HRViT:マルチスケール高分解能ビジョントランス
- Authors: Jiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye, Meng Li, Yu-Hsin Chen,
Liangzhen Lai, Vikas Chandra, David Z. Pan
- Abstract要約: 視覚変換器(ViT)は、コンピュータビジョンタスクにおける優れた性能のために多くの注目を集めている。
本稿では,高分解能マルチブランチアーキテクチャと視覚変換器を効率よく統合したHRViTを提案する。
提案されたHRViTはADE20Kで50.20% mIoU、Cityscapesで83.16% mIoUを達成した。
- 参考スコア(独自算出の注目度): 19.751569057142806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have attracted much attention for their superior
performance on computer vision tasks. To address their limitations of
single-scale low-resolution representations, prior work adapts ViTs to
high-resolution dense prediction tasks with hierarchical architectures to
generate pyramid features. However, multi-scale representation learning is
still under-explored on ViTs, given their classification-like sequential
topology. To enhance ViTs with more capability to learn semantically-rich and
spatially-precise multi-scale representations, in this work, we present an
efficient integration of high-resolution multi-branch architectures with vision
transformers, dubbed HRViT, pushing the Pareto front of dense prediction tasks
to a new level. We explore heterogeneous branch design, reduce the redundancy
in linear layers, and augment the model nonlinearity to balance the model
performance and hardware efficiency. The proposed HRViT achieves 50.20% mIoU on
ADE20K and 83.16% mIoU on Cityscapes for semantic segmentation tasks,
surpassing state-of-the-art MiT and CSWin with an average of +1.78 mIoU
improvement, 28% parameter reduction, and 21% FLOPs reduction, demonstrating
the potential of HRViT as strong vision backbones.
- Abstract(参考訳): ビジョントランスフォーマー (vits) は、コンピュータビジョンタスクの優れた性能で多くの注目を集めている。
単一スケールの低分解能表現の限界に対処するため、事前の作業では、階層構造を持つ高分解能密度予測タスクにViTを適用してピラミッドの特徴を生成する。
しかし、その分類のようなシーケンシャルトポロジーを考えると、マルチスケールの表現学習はまだViTでは未探索である。
意味的にリッチで空間的に精度の高いマルチスケール表現を学習する能力を高めるために,我々は高解像度のマルチブランチアーキテクチャをHRViTと呼ばれる視覚変換器と効率的に統合し,高密度予測タスクのParetoを新たなレベルに押し上げる。
我々は、異種分岐設計を探求し、線形層における冗長性を低減し、モデル性能とハードウェア効率のバランスをとるためにモデル非線形性を強化した。
提案したHRViTは、ADE20K上の50.20% mIoUと、セマンティックセグメンテーションタスクのためのCityscapes上の83.16% mIoUを達成し、最先端のMiTとCSWinを平均1.78 mIoUの改善、28%のパラメータ削減、21%のFLOPs還元を達成し、HRViTを強力な視覚バックボーンとしての可能性を示している。
関連論文リスト
- ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature
Interaction for Dense Predictions [4.886083198552334]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:59:41Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Grafting Vision Transformers [42.71480918208436]
ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
GrafTはグローバルな依存関係とネットワーク全体のマルチスケール情報を考慮している。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算の大部分を共有できる。
論文 参考訳(メタデータ) (2022-10-28T07:07:13Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。