Fugu-MT 論文翻訳(概要): HRFormer: High-Resolution Transformer for Dense Prediction

論文の概要: HRFormer: High-Resolution Transformer for Dense Prediction

arxiv url: http://arxiv.org/abs/2110.09408v1
Date: Mon, 18 Oct 2021 15:37:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 17:17:01.417432
Title: HRFormer: High-Resolution Transformer for Dense Prediction
Title（参考訳）: HRFormer:密度予測のための高分解能トランス
Authors: Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang
Abstract要約: 本稿では,高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRT)を提案する。我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。ヒトのポーズ推定とセマンティックセグメンテーションにおけるHRTの有効性を示す。
参考スコア（独自算出の注目度）: 99.6060997466614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a High-Resolution Transformer (HRT) that learns high-resolution representations for dense prediction tasks, in contrast to the original Vision Transformer that produces low-resolution representations and has high memory and computational cost. We take advantage of the multi-resolution parallel design introduced in high-resolution convolutional networks (HRNet), along with local-window self-attention that performs self-attention over small non-overlapping image windows, for improving the memory and computation efficiency. In addition, we introduce a convolution into the FFN to exchange information across the disconnected image windows. We demonstrate the effectiveness of the High-Resolution Transformer on both human pose estimation and semantic segmentation tasks, e.g., HRT outperforms Swin transformer by $1.3$ AP on COCO pose estimation with $50\%$ fewer parameters and $30\%$ fewer FLOPs. Code is available at: https://github.com/HRNet/HRFormer.
Abstract（参考訳）: 高分解能トランスフォーマ(hrt)は高密度予測タスクの高分解能表現を学習し,低分解能表現を生成し,高いメモリと計算コストを有するオリジナルビジョントランスとは対照的に,高分解能トランスフォーマ(hrt)を提案する。高分解能畳み込みネットワーク(hrnet)で導入されたマルチレゾリューション並列設計と、小さな非オーバーラップ画像ウィンドウ上でセルフアテンションを実行するローカルウィンドウ自己アテンションを活用し、メモリと計算効率を向上させる。さらに、オフ接続画像ウィンドウ間で情報交換を行うためにFFNに畳み込みを導入する。例えば、HRTは、COCOのポーズ推定において、50\%$パラメータを減らし、30\%$FLOPsを減らし、Swin変換器を1.3$APで上回り、人間のポーズ推定とセマンティックセマンティックセグメンテーションタスクにおける高分解能トランスフォーマーの有効性を示す。コードは、https://github.com/HRNet/HRFormer.comで入手できる。

関連論文リスト

Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformers [14.756988176469365]
計算要求の削減と効率の向上のための効果的なアプローチは、ディープニューラルネットワークの不要なコンポーネントを創り出すことである。これまでの研究では、eXplainable AIの分野からの帰属法が、最も関係の低いネットワークコンポーネントを数ショットで抽出し、プルークする効果的な手段であることが示された。
論文参考訳（メタデータ） (2024-08-22T17:35:18Z)
PTSR: Patch Translator for Image Super-Resolution [16.243363392717434]
画像超解像(PTSR)のためのパッチトランスレータを提案し,この問題に対処する。提案するPTSRは、畳み込み動作のないトランスフォーマーベースGANネットワークである。マルチヘッドアテンションを利用した改良パッチを再生するための新しいパッチトランスレータモジュールを提案する。
論文参考訳（メタデータ） (2023-10-20T01:45:00Z)
Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文参考訳（メタデータ） (2022-06-21T17:33:53Z)
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。 LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文参考訳（メタデータ） (2022-04-16T11:30:26Z)
StyleSwin: Transformer-based GAN for High-resolution Image Generation [28.703687511694305]
我々は,高分解能画像合成のための生成的対向ネットワークを構築するために,純粋なトランスフォーマーを用いて探究する。提案されたジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。ウィンドウベースの変圧器で失われた絶対位置の知識を提供することは、生成品質に大きな恩恵をもたらすことを示す。
論文参考訳（メタデータ） (2021-12-20T18:59:51Z)
AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文参考訳（メタデータ） (2021-11-30T18:57:02Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)
Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文参考訳（メタデータ） (2021-06-14T17:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。