論文の概要: HRViT: Multi-Scale High-Resolution Vision Transformer
- arxiv url: http://arxiv.org/abs/2111.01236v1
- Date: Mon, 1 Nov 2021 19:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 12:43:22.528683
- Title: HRViT: Multi-Scale High-Resolution Vision Transformer
- Title(参考訳): HRViT:マルチスケール高分解能ビジョントランス
- Authors: Jiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye, Meng Li, Yu-Hsin Chen,
Liangzhen Lai, Vikas Chandra, David Z. Pan
- Abstract要約: 視覚変換器(ViT)は、コンピュータビジョンタスクにおける優れた性能のために多くの注目を集めている。
本稿では,高分解能マルチブランチアーキテクチャと視覚変換器を効率よく統合したHRViTを提案する。
提案されたHRViTはADE20Kで50.20% mIoU、Cityscapesで83.16% mIoUを達成した。
- 参考スコア(独自算出の注目度): 19.751569057142806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have attracted much attention for their superior
performance on computer vision tasks. To address their limitations of
single-scale low-resolution representations, prior work adapts ViTs to
high-resolution dense prediction tasks with hierarchical architectures to
generate pyramid features. However, multi-scale representation learning is
still under-explored on ViTs, given their classification-like sequential
topology. To enhance ViTs with more capability to learn semantically-rich and
spatially-precise multi-scale representations, in this work, we present an
efficient integration of high-resolution multi-branch architectures with vision
transformers, dubbed HRViT, pushing the Pareto front of dense prediction tasks
to a new level. We explore heterogeneous branch design, reduce the redundancy
in linear layers, and augment the model nonlinearity to balance the model
performance and hardware efficiency. The proposed HRViT achieves 50.20% mIoU on
ADE20K and 83.16% mIoU on Cityscapes for semantic segmentation tasks,
surpassing state-of-the-art MiT and CSWin with an average of +1.78 mIoU
improvement, 28% parameter reduction, and 21% FLOPs reduction, demonstrating
the potential of HRViT as strong vision backbones.
- Abstract(参考訳): ビジョントランスフォーマー (vits) は、コンピュータビジョンタスクの優れた性能で多くの注目を集めている。
単一スケールの低分解能表現の限界に対処するため、事前の作業では、階層構造を持つ高分解能密度予測タスクにViTを適用してピラミッドの特徴を生成する。
しかし、その分類のようなシーケンシャルトポロジーを考えると、マルチスケールの表現学習はまだViTでは未探索である。
意味的にリッチで空間的に精度の高いマルチスケール表現を学習する能力を高めるために,我々は高解像度のマルチブランチアーキテクチャをHRViTと呼ばれる視覚変換器と効率的に統合し,高密度予測タスクのParetoを新たなレベルに押し上げる。
我々は、異種分岐設計を探求し、線形層における冗長性を低減し、モデル性能とハードウェア効率のバランスをとるためにモデル非線形性を強化した。
提案したHRViTは、ADE20K上の50.20% mIoUと、セマンティックセグメンテーションタスクのためのCityscapes上の83.16% mIoUを達成し、最先端のMiTとCSWinを平均1.78 mIoUの改善、28%のパラメータ削減、21%のFLOPs還元を達成し、HRViTを強力な視覚バックボーンとしての可能性を示している。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Navigating Efficiency in MobileViT through Gaussian Process on Global Architecture Factors [11.030156344387732]
我々はガウス過程を利用して、MobileViTの性能とグローバルアーキテクチャ要素の関係を探求する。
本稿では, モデルサイズと計算コストを最小化し, モデル精度を向上する大域的アーキテクチャ因子のマジック4D立方体をツイストする設計原理を提案する。
実験結果から,CNN や移動型 ViT を多種多様なデータセットで大幅に上回る結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T10:41:24Z) - HSViT: Horizontally Scalable Vision Transformer [16.46308352393693]
Vision Transformer (ViT) は大規模データセットの事前トレーニングが必要であり、パフォーマンスが向上する。
本稿では,新しい水平方向拡張型ビジョントランス (HSViT) 方式を提案する。
HSViTは、小さなデータセットの最先端スキームよりも最大10%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-04-08T04:53:29Z) - HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs [102.4965532024391]
Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
論文 参考訳(メタデータ) (2024-03-18T17:34:29Z) - ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions [4.554319452683839]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:59:41Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Grafting Vision Transformers [42.71480918208436]
ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
GrafTはグローバルな依存関係とネットワーク全体のマルチスケール情報を考慮している。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算の大部分を共有できる。
論文 参考訳(メタデータ) (2022-10-28T07:07:13Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。