論文の概要: ResFormer: Scaling ViTs with Multi-Resolution Training
- arxiv url: http://arxiv.org/abs/2212.00776v2
- Date: Mon, 3 Apr 2023 06:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 23:51:43.231872
- Title: ResFormer: Scaling ViTs with Multi-Resolution Training
- Title(参考訳): ResFormer:マルチリゾリューショントレーニングによるViTのスケーリング
- Authors: Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, Yu-Gang Jiang
- Abstract要約: 私たちはResFormerを紹介します。ResFormerは、広く、ほとんど目に見えない、テストの解像度でパフォーマンスを改善するフレームワークです。
特にResFormerは、異なる解像度の再現されたイメージを実行し、さまざまなスケールでインタラクティブな情報をエンゲージするスケール一貫性の損失を強制する。
さらに、ResFormerは柔軟性があり、セマンティックセグメンテーション、オブジェクト検出、ビデオアクション認識に容易に拡張できることを示す。
- 参考スコア(独自算出の注目度): 100.01406895070693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved overwhelming success, yet they
suffer from vulnerable resolution scalability, i.e., the performance drops
drastically when presented with input resolutions that are unseen during
training. We introduce, ResFormer, a framework that is built upon the seminal
idea of multi-resolution training for improved performance on a wide spectrum
of, mostly unseen, testing resolutions. In particular, ResFormer operates on
replicated images of different resolutions and enforces a scale consistency
loss to engage interactive information across different scales. More
importantly, to alternate among varying resolutions effectively, especially
novel ones in testing, we propose a global-local positional embedding strategy
that changes smoothly conditioned on input sizes. We conduct extensive
experiments for image classification on ImageNet. The results provide strong
quantitative evidence that ResFormer has promising scaling abilities towards a
wide range of resolutions. For instance, ResFormer-B-MR achieves a Top-1
accuracy of 75.86% and 81.72% when evaluated on relatively low and high
resolutions respectively (i.e., 96 and 640), which are 48% and 7.49% better
than DeiT-B. We also demonstrate, moreover, ResFormer is flexible and can be
easily extended to semantic segmentation, object detection and video action
recognition. Code is available at https://github.com/ruitian12/resformer.
- Abstract(参考訳): 視覚トランスフォーマー(vits)は圧倒的な成功を収めているが、それらは脆弱な解像度のスケーラビリティ、すなわち、トレーニング中に目に見えない入力解像度が提示されると、パフォーマンスが大幅に低下する。
resformerはマルチレゾリューショントレーニングという独創的なアイデアに基づいて構築されたフレームワークで、幅広い範囲(ほとんど見えない)のテスト解像度のパフォーマンス向上を目的としています。
特に、resformerは異なる解像度の複製された画像を操作し、異なるスケールでインタラクティブな情報を扱うためにスケール一貫性の損失を強制する。
さらに,様々な解像度,特に新しい解像度を効果的に交互にテストするために,入力サイズに応じてスムーズに変化するグローバルローカルな位置埋め込み戦略を提案する。
ImageNet上で画像分類のための広範な実験を行う。
この結果は、resformerが幅広い解像度に向けたスケーリング能力を持っているという強力な定量的証拠を提供する。
例えば、ResFormer-B-MRは、比較的低解像度と高解像度(96と640)で評価すると、Top-1の精度が75.86%と81.72%に達する(DeiT-Bより48%と7.49%良い)。
また,resformerは柔軟であり,意味セグメンテーション,オブジェクト検出,ビデオアクション認識にも容易に拡張できることを示す。
コードはhttps://github.com/ruitian12/resformerで入手できる。
関連論文リスト
- ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z) - Improving Performance of Object Detection using the Mechanisms of Visual
Recognition in Humans [0.4297070083645048]
我々はまず、画像解像度の関数として最先端のディープオブジェクト認識ネットワークであるFaster-RCNNの性能を追跡する。
また、認識過程において、異なる空間周波数が物体に関する異なる情報を伝えることも示している。
単分解能ネットワークではなく,多分解能オブジェクト認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-23T19:09:36Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Resolution based Feature Distillation for Cross Resolution Person
Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。
解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。
本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:07:59Z) - Resolution-invariant Person ReID Based on Feature Transformation and
Self-weighted Attention [14.777001614779806]
Person Re-identification (ReID) は、画像やビデオのシーケンスで同一人物と一致することを目的としたコンピュータビジョンタスクである。
本研究では,ReID特徴変換(RAFT)モジュールとSWA(Self-weighted attention)ReIDモジュールを備えた,新しい2ストリームネットワークを提案する。
どちらのモジュールも、解決不変表現を得るために共同で訓練される。
論文 参考訳(メタデータ) (2021-01-12T15:22:41Z) - Resolution Switchable Networks for Runtime Efficient Image Recognition [46.09537029831355]
本稿では,推論時に画像解像度を切り替えることのできる,単一の畳み込みニューラルネットワークを訓練する一般的な手法を提案する。
提案手法でトレーニングしたネットワークは、Resolvation Switchable Networks (RS-Nets) と呼ばれる。
論文 参考訳(メタデータ) (2020-07-19T02:12:59Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。