論文の概要: ResT V2: Simpler, Faster and Stronger
- arxiv url: http://arxiv.org/abs/2204.07366v1
- Date: Fri, 15 Apr 2022 07:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 20:53:31.383354
- Title: ResT V2: Simpler, Faster and Stronger
- Title(参考訳): ResT V2: よりシンプルで、より速く、より強く
- Authors: Qing-Long Zhang and Yu-Bin Yang
- Abstract要約: 本稿では,よりシンプルで高速で強力なマルチスケール視覚変換器であるResTv2を提案する。
我々は、ImageNet分類、COCO検出、ADE20KセマンティックセグメンテーションのResTv2を検証する。
実験結果から、提案されたResTv2は、最近の最先端のバックボーンよりも大きなマージンで優れていることが示された。
- 参考スコア(独自算出の注目度): 18.610152288982288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes ResTv2, a simpler, faster, and stronger multi-scale
vision Transformer for visual recognition. ResTv2 simplifies the EMSA structure
in ResTv1 (i.e., eliminating the multi-head interaction part) and employs an
upsample operation to reconstruct the lost medium- and high-frequency
information caused by the downsampling operation. In addition, we explore
different techniques for better apply ResTv2 backbones to downstream tasks. We
found that although combining EMSAv2 and window attention can greatly reduce
the theoretical matrix multiply FLOPs, it may significantly decrease the
computation density, thus causing lower actual speed. We comprehensively
validate ResTv2 on ImageNet classification, COCO detection, and ADE20K semantic
segmentation. Experimental results show that the proposed ResTv2 can outperform
the recently state-of-the-art backbones by a large margin, demonstrating the
potential of ResTv2 as solid backbones. The code and models will be made
publicly available at \url{https://github.com/wofmanaf/ResT}
- Abstract(参考訳): 本稿では,よりシンプルで高速で強力なマルチスケール視覚変換器であるResTv2を提案する。
ResTv2は、ResTv1のEMSA構造を単純化し(つまり、マルチヘッド相互作用部を除去する)、アップサンプル演算を用いて、ダウンサンプリング操作によって失われた中・高周波情報を再構成する。
さらに、下流タスクにResTv2バックボーンをうまく適用するためのさまざまなテクニックについても検討する。
EMSAv2とウィンドウアテンションを組み合わせることで、理論行列乗算FLOPを大幅に削減できるが、計算密度が大幅に低下し、実際の速度が低下することを発見した。
ImageNet分類、COCO検出、ADE20KセマンティックセグメンテーションのResTv2を総合的に検証する。
実験の結果、提案されたResTv2は、最近の最先端のバックボーンを大きなマージンで上回り、ResTv2を固体のバックボーンとしての可能性を示している。
コードとモデルは \url{https://github.com/wofmanaf/ResT} で公開される。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal
Action Localization [65.33914980022303]
時間的行動ローカライゼーション(TAL)は、様々な期間と複雑な内容の行動を予測するために、長期的推論を必要とする。
ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングできる。
本稿では,既存のビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法Re2TALを提案する。
論文 参考訳(メタデータ) (2022-11-25T12:17:30Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Replay and Synthetic Speech Detection with Res2net Architecture [85.20912636149552]
既存のリプレイと合成音声検出のアプローチは、スプーフィング攻撃に対する一般化性に欠けていた。
本研究では、Res2Netと呼ばれる新しいモデル構造を活用して、アンチスプーフィング対策の一般化性を改善することを提案する。
論文 参考訳(メタデータ) (2020-10-28T14:33:42Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。