論文の概要: HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs
- arxiv url: http://arxiv.org/abs/2403.11999v1
- Date: Mon, 18 Mar 2024 17:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:11:08.285419
- Title: HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs
- Title(参考訳): HIRI-ViT:高分解能入力を用いた拡張型視覚変換器
- Authors: Ting Yao, Yehao Li, Yingwei Pan, Tao Mei,
- Abstract要約: Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
- 参考スコア(独自算出の注目度): 102.4965532024391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hybrid deep models of Vision Transformer (ViT) and Convolution Neural Network (CNN) have emerged as a powerful class of backbones for vision tasks. Scaling up the input resolution of such hybrid backbones naturally strengthes model capacity, but inevitably suffers from heavy computational cost that scales quadratically. Instead, we present a new hybrid backbone with HIgh-Resolution Inputs (namely HIRI-ViT), that upgrades prevalent four-stage ViT to five-stage ViT tailored for high-resolution inputs. HIRI-ViT is built upon the seminal idea of decomposing the typical CNN operations into two parallel CNN branches in a cost-efficient manner. One high-resolution branch directly takes primary high-resolution features as inputs, but uses less convolution operations. The other low-resolution branch first performs down-sampling and then utilizes more convolution operations over such low-resolution features. Experiments on both recognition task (ImageNet-1K dataset) and dense prediction tasks (COCO and ADE20K datasets) demonstrate the superiority of HIRI-ViT. More remarkably, under comparable computational cost ($\sim$5.0 GFLOPs), HIRI-ViT achieves to-date the best published Top-1 accuracy of 84.3% on ImageNet with 448$\times$448 inputs, which absolutely improves 83.4% of iFormer-S by 0.9% with 224$\times$224 inputs.
- Abstract(参考訳): Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクの強力なバックボーンクラスとして登場した。
このようなハイブリッドバックボーンの入力解像度のスケールアップは、モデル容量を自然に強化するが、必然的に、二次的にスケールする重い計算コストに悩まされる。
代わりに、HIgh-Resolution Inputs(HIRI-ViT)を組み込んだ新しいハイブリッドバックボーンを提案し、高解像度入力に適した4段のViTから5段のViTにアップグレードする。
HIRI-ViTは、典型的なCNN操作を2つの並列CNNブランチにコスト効率よく分解するという基本的な考え方に基づいている。
1つの高分解能分岐は入力として第一の高分解能特徴を直接取り込むが、畳み込み演算は少ない。
他の低解像度ブランチは、まずダウンサンプリングを行い、その後、そのような低解像度機能に対してより畳み込み演算を利用する。
認識タスク(ImageNet-1Kデータセット)と高密度予測タスク(COCOおよびADE20Kデータセット)の両方の実験は、HIRI-ViTの優位性を実証している。
HIRI-ViTは448$\times$448の入力でImageNet上で84.3%の最高のTop-1精度を実現し、224$\times$224の入力で、iFormer-Sの83.4%を0.9%改善した。
関連論文リスト
- FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution [33.07779971446476]
任意の解像度で高画質画像を効率よく生成できる、純粋に畳み込みに基づく生成モデルであるFlowDCNを提案する。
FlowDCNは256Times256$ ImageNet Benchmarkと同等の解像度外挿結果で最先端の4.30 sFIDを実現している。
FlowDCNはスケーラブルで柔軟な画像合成のための有望なソリューションであると考えています。
論文 参考訳(メタデータ) (2024-10-30T02:48:50Z) - ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Next-ViT: Next Generation Vision Transformer for Efficient Deployment in
Realistic Industrial Scenarios [19.94294348122248]
ほとんどの視覚変換器(ViT)は、現実的な産業展開シナリオにおいて、畳み込みニューラルネットワーク(CNN)ほど効率的に動作できない。
現実的な産業シナリオ,すなわちNext-ViTにおける効率的な展開のための次世代ビジョントランスフォーマーを提案する。
Next-ViTはレイテンシ/精度トレードオフの観点からCNNとViTの両方を支配している。
論文 参考訳(メタデータ) (2022-07-12T12:50:34Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - HRViT: Multi-Scale High-Resolution Vision Transformer [19.751569057142806]
視覚変換器(ViT)は、コンピュータビジョンタスクにおける優れた性能のために多くの注目を集めている。
本稿では,高分解能マルチブランチアーキテクチャと視覚変換器を効率よく統合したHRViTを提案する。
提案されたHRViTはADE20Kで50.20% mIoU、Cityscapesで83.16% mIoUを達成した。
論文 参考訳(メタデータ) (2021-11-01T19:49:52Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。