論文の概要: HRFormer: High-Resolution Transformer for Dense Prediction
- arxiv url: http://arxiv.org/abs/2110.09408v2
- Date: Thu, 21 Oct 2021 05:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 12:09:10.873372
- Title: HRFormer: High-Resolution Transformer for Dense Prediction
- Title(参考訳): HRFormer:密度予測のための高分解能トランス
- Authors: Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen,
Jingdong Wang
- Abstract要約: 本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
- 参考スコア(独自算出の注目度): 99.6060997466614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a High-Resolution Transformer (HRFormer) that learns
high-resolution representations for dense prediction tasks, in contrast to the
original Vision Transformer that produces low-resolution representations and
has high memory and computational cost. We take advantage of the
multi-resolution parallel design introduced in high-resolution convolutional
networks (HRNet), along with local-window self-attention that performs
self-attention over small non-overlapping image windows, for improving the
memory and computation efficiency. In addition, we introduce a convolution into
the FFN to exchange information across the disconnected image windows. We
demonstrate the effectiveness of the High-Resolution Transformer on both human
pose estimation and semantic segmentation tasks, e.g., HRFormer outperforms
Swin transformer by $1.3$ AP on COCO pose estimation with $50\%$ fewer
parameters and $30\%$ fewer FLOPs. Code is available at:
https://github.com/HRNet/HRFormer.
- Abstract(参考訳): 高分解能トランスフォーマ(hrformer)は高密度予測タスクの高分解能表現を学習するが,低分解能表現を生成し,高いメモリと計算コストを有する元のビジョントランスとは対照的に,高分解能トランスフォーマ(hrformer)を提案する。
高分解能畳み込みネットワーク(hrnet)で導入されたマルチレゾリューション並列設計と、小さな非オーバーラップ画像ウィンドウ上でセルフアテンションを実行するローカルウィンドウ自己アテンションを活用し、メモリと計算効率を向上させる。
さらに、オフ接続画像ウィンドウ間で情報交換を行うためにFFNに畳み込みを導入する。
本研究では,高分解能トランスフォーマーが人間のポーズ推定とセマンティックセグメンテーションタスクの両方に与える影響を実証する。例えば,HRFormerはCOCOのポーズ推定において,パラメータが50\%,FLOPが30\%のSwinトランスフォーマーを1.3$APで上回っている。
コードは、https://github.com/HRNet/HRFormer.comで入手できる。
関連論文リスト
- Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformers [14.756988176469365]
計算要求の削減と効率の向上のための効果的なアプローチは、ディープニューラルネットワークの不要なコンポーネントを創り出すことである。
これまでの研究では、eXplainable AIの分野からの帰属法が、最も関係の低いネットワークコンポーネントを数ショットで抽出し、プルークする効果的な手段であることが示された。
論文 参考訳(メタデータ) (2024-08-22T17:35:18Z) - PTSR: Patch Translator for Image Super-Resolution [16.243363392717434]
画像超解像(PTSR)のためのパッチトランスレータを提案し,この問題に対処する。
提案するPTSRは、畳み込み動作のないトランスフォーマーベースGANネットワークである。
マルチヘッドアテンションを利用した改良パッチを再生するための新しいパッチトランスレータモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-20T01:45:00Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。