論文の概要: ResFormer: Scaling ViTs with Multi-Resolution Training
- arxiv url: http://arxiv.org/abs/2212.00776v1
- Date: Thu, 1 Dec 2022 18:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:31:50.158249
- Title: ResFormer: Scaling ViTs with Multi-Resolution Training
- Title(参考訳): ResFormer:マルチリゾリューショントレーニングによるViTのスケーリング
- Authors: Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, Yu-Gang Jiang
- Abstract要約: ヴィジュアルトランスフォーマー(ViT)は圧倒的な成功を収めたが、脆弱な解像度のスケーラビリティに悩まされている。
われわれはResFormerというフレームワークを紹介した。これはマルチレゾリューショントレーニングという独創的なアイデアに基づいており、広範囲の、ほとんど目に見えない、テストの解像度におけるパフォーマンスを改善する。
特にResFormerは、さまざまな解像度の再現されたイメージを実行し、さまざまなスケールでインタラクティブな情報をエンゲージするスケール一貫性の損失を強制する。
- 参考スコア(独自算出の注目度): 100.01406895070693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved overwhelming success, yet they
suffer from vulnerable resolution scalability, i.e., the performance drops
drastically when presented with input resolutions that are unseen during
training. We introduce, ResFormer, a framework that is built upon the seminal
idea of multi-resolution training for improved performance on a wide spectrum
of, mostly unseen, testing resolutions. In particular, ResFormer operates on
replicated images of different resolutions and enforces a scale consistency
loss to engage interactive information across different scales. More
importantly, to alternate among varying resolutions, we propose a global-local
positional embedding strategy that changes smoothly conditioned on input sizes.
This allows ResFormer to cope with novel resolutions effectively. We conduct
extensive experiments for image classification on ImageNet. The results provide
strong quantitative evidence that ResFormer has promising scaling abilities
towards a wide range resolutions. For instance, ResFormer-B-MR achieves a Top-1
accuracy of 75.86% and 81.72% when evaluated on relatively low and high
resolutions respectively (i.e., 96 and 640), which are 48% and 7.49% better
than DeiT-B. We also demonstrate, among other things, ResFormer is flexible and
can be easily extended to semantic segmentation and video action recognition.
- Abstract(参考訳): 視覚トランスフォーマー(vits)は圧倒的な成功を収めているが、それらは脆弱な解像度のスケーラビリティ、すなわち、トレーニング中に目に見えない入力解像度が提示されると、パフォーマンスが大幅に低下する。
resformerはマルチレゾリューショントレーニングという独創的なアイデアに基づいて構築されたフレームワークで、幅広い範囲(ほとんど見えない)のテスト解像度のパフォーマンス向上を目的としています。
特に、resformerは異なる解像度の複製された画像を操作し、異なるスケールでインタラクティブな情報を扱うためにスケール一貫性の損失を強制する。
さらに,様々な解像度に代えて,入力サイズに応じてスムースに変化するグローバルローカルな位置埋め込み戦略を提案する。
これにより、resformerは新しい解像度に効果的に対応できる。
ImageNet上で画像分類のための広範な実験を行う。
この結果は、resformerが幅広い解像度に向けたスケーリング能力を持っているという強力な定量的証拠を提供する。
例えば、ResFormer-B-MRは、比較的低解像度と高解像度(96と640)で評価すると、Top-1の精度が75.86%と81.72%に達する(DeiT-Bより48%と7.49%良い)。
また、ResFormerは柔軟性があり、セマンティックセグメンテーションやビデオアクション認識に容易に拡張できることを示す。
関連論文リスト
- ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z) - Improving Performance of Object Detection using the Mechanisms of Visual
Recognition in Humans [0.4297070083645048]
我々はまず、画像解像度の関数として最先端のディープオブジェクト認識ネットワークであるFaster-RCNNの性能を追跡する。
また、認識過程において、異なる空間周波数が物体に関する異なる情報を伝えることも示している。
単分解能ネットワークではなく,多分解能オブジェクト認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-23T19:09:36Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Resolution based Feature Distillation for Cross Resolution Person
Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。
解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。
本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:07:59Z) - Resolution-invariant Person ReID Based on Feature Transformation and
Self-weighted Attention [14.777001614779806]
Person Re-identification (ReID) は、画像やビデオのシーケンスで同一人物と一致することを目的としたコンピュータビジョンタスクである。
本研究では,ReID特徴変換(RAFT)モジュールとSWA(Self-weighted attention)ReIDモジュールを備えた,新しい2ストリームネットワークを提案する。
どちらのモジュールも、解決不変表現を得るために共同で訓練される。
論文 参考訳(メタデータ) (2021-01-12T15:22:41Z) - Resolution Switchable Networks for Runtime Efficient Image Recognition [46.09537029831355]
本稿では,推論時に画像解像度を切り替えることのできる,単一の畳み込みニューラルネットワークを訓練する一般的な手法を提案する。
提案手法でトレーニングしたネットワークは、Resolvation Switchable Networks (RS-Nets) と呼ばれる。
論文 参考訳(メタデータ) (2020-07-19T02:12:59Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。