論文の概要: SepViT: Separable Vision Transformer
- arxiv url: http://arxiv.org/abs/2203.15380v4
- Date: Thu, 15 Jun 2023 16:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 04:22:54.412276
- Title: SepViT: Separable Vision Transformer
- Title(参考訳): SepViT:分離可能な視覚変換器
- Authors: Wei Li, Xing Wang, Xin Xia, Jie Wu, Jiashi Li, Xuefeng Xiao, Min
Zheng, Shiping Wen
- Abstract要約: ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
- 参考スコア(独自算出の注目度): 20.403430632658946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have witnessed prevailing success in a series of vision
tasks. However, these Transformers often rely on extensive computational costs
to achieve high performance, which is burdensome to deploy on
resource-constrained devices. To alleviate this issue, we draw lessons from
depthwise separable convolution and imitate its ideology to design an efficient
Transformer backbone, i.e., Separable Vision Transformer, abbreviated as
SepViT. SepViT helps to carry out the local-global information interaction
within and among the windows in sequential order via a depthwise separable
self-attention. The novel window token embedding and grouped self-attention are
employed to compute the attention relationship among windows with negligible
cost and establish long-range visual interactions across multiple windows,
respectively. Extensive experiments on general-purpose vision benchmarks
demonstrate that SepViT can achieve a state-of-the-art trade-off between
performance and latency. Among them, SepViT achieves 84.2% top-1 accuracy on
ImageNet-1K classification while decreasing the latency by 40%, compared to the
ones with similar accuracy (e.g., CSWin). Furthermore, SepViT achieves 51.0%
mIoU on ADE20K semantic segmentation task, 47.9 AP on the RetinaNet-based COCO
detection task, 49.4 box AP and 44.6 mask AP on Mask R-CNN-based COCO object
detection and instance segmentation tasks.
- Abstract(参考訳): 視覚トランスフォーマーは、一連の視覚タスクで成功している。
しかし、これらのトランスフォーマーは高い性能を達成するために膨大な計算コストに依存しており、リソースに制約のあるデバイスにデプロイするのには負担がかかる。
この問題を軽減するため,我々は,奥行き分離可能な畳み込みから教訓を導き,そのイデオロギーを模倣して,効率的なトランスフォーマーバックボーン,すなわち sepvit と略される分離可能な視覚トランスフォーマーを設計した。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
新規なウィンドウトークン埋め込みとグループ自己注意を用いて、窓間の注意関係を無視可能なコストで計算し、複数のウィンドウ間での長距離視覚的相互作用を確立する。
汎用ビジョンベンチマークに関する広範な実験は、sepvitがパフォーマンスとレイテンシの最先端のトレードオフを達成できることを示しています。
中でもSepViTは、ImageNet-1K分類で84.2%の精度で、類似の精度(CSWinなど)と比較して、レイテンシを40%削減している。
さらに、SepViTはADE20Kセマンティックセグメンテーションタスクで51.0% mIoU、RetinaNetベースのCOCO検出タスクで47.9 AP、Mask R-CNNベースのCOCOオブジェクト検出およびインスタンスセグメンテーションタスクで49.4ボックスAPと44.6マスクAPを達成した。
関連論文リスト
- HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs [102.4965532024391]
Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
論文 参考訳(メタデータ) (2024-03-18T17:34:29Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Next-ViT: Next Generation Vision Transformer for Efficient Deployment in
Realistic Industrial Scenarios [19.94294348122248]
ほとんどの視覚変換器(ViT)は、現実的な産業展開シナリオにおいて、畳み込みニューラルネットワーク(CNN)ほど効率的に動作できない。
現実的な産業シナリオ,すなわちNext-ViTにおける効率的な展開のための次世代ビジョントランスフォーマーを提案する。
Next-ViTはレイテンシ/精度トレードオフの観点からCNNとViTの両方を支配している。
論文 参考訳(メタデータ) (2022-07-12T12:50:34Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - What Makes for Hierarchical Vision Transformer? [46.848348453909495]
Swin TransformerとShuffle Transformerの自己アテンション層を単純な線形マッピングで置き換え、他のコンポーネントをそのままにします。
25.4Mパラメータと4.2GのFLOPを持つアーキテクチャは、28.3Mパラメータと4.5GのFLOPを持つSwin Transformerの81.3%と比較して80.5%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2021-07-05T17:59:35Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。