Fugu-MT 論文翻訳(概要): ResFormer: Scaling ViTs with Multi-Resolution Training

論文の概要: ResFormer: Scaling ViTs with Multi-Resolution Training

arxiv url: http://arxiv.org/abs/2212.00776v1
Date: Thu, 1 Dec 2022 18:57:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 16:31:50.158249
Title: ResFormer: Scaling ViTs with Multi-Resolution Training
Title（参考訳）: ResFormer:マルチリゾリューショントレーニングによるViTのスケーリング
Authors: Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, Yu-Gang Jiang
Abstract要約: ヴィジュアルトランスフォーマー(ViT)は圧倒的な成功を収めたが、脆弱な解像度のスケーラビリティに悩まされている。われわれはResFormerというフレームワークを紹介した。これはマルチレゾリューショントレーニングという独創的なアイデアに基づいており、広範囲の、ほとんど目に見えない、テストの解像度におけるパフォーマンスを改善する。特にResFormerは、さまざまな解像度の再現されたイメージを実行し、さまざまなスケールでインタラクティブな情報をエンゲージするスケール一貫性の損失を強制する。
参考スコア（独自算出の注目度）: 100.01406895070693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformers (ViTs) have achieved overwhelming success, yet they suffer from vulnerable resolution scalability, i.e., the performance drops drastically when presented with input resolutions that are unseen during training. We introduce, ResFormer, a framework that is built upon the seminal idea of multi-resolution training for improved performance on a wide spectrum of, mostly unseen, testing resolutions. In particular, ResFormer operates on replicated images of different resolutions and enforces a scale consistency loss to engage interactive information across different scales. More importantly, to alternate among varying resolutions, we propose a global-local positional embedding strategy that changes smoothly conditioned on input sizes. This allows ResFormer to cope with novel resolutions effectively. We conduct extensive experiments for image classification on ImageNet. The results provide strong quantitative evidence that ResFormer has promising scaling abilities towards a wide range resolutions. For instance, ResFormer-B-MR achieves a Top-1 accuracy of 75.86% and 81.72% when evaluated on relatively low and high resolutions respectively (i.e., 96 and 640), which are 48% and 7.49% better than DeiT-B. We also demonstrate, among other things, ResFormer is flexible and can be easily extended to semantic segmentation and video action recognition.
Abstract（参考訳）: 視覚トランスフォーマー(vits)は圧倒的な成功を収めているが、それらは脆弱な解像度のスケーラビリティ、すなわち、トレーニング中に目に見えない入力解像度が提示されると、パフォーマンスが大幅に低下する。 resformerはマルチレゾリューショントレーニングという独創的なアイデアに基づいて構築されたフレームワークで、幅広い範囲(ほとんど見えない)のテスト解像度のパフォーマンス向上を目的としています。特に、resformerは異なる解像度の複製された画像を操作し、異なるスケールでインタラクティブな情報を扱うためにスケール一貫性の損失を強制する。さらに,様々な解像度に代えて,入力サイズに応じてスムースに変化するグローバルローカルな位置埋め込み戦略を提案する。これにより、resformerは新しい解像度に効果的に対応できる。 ImageNet上で画像分類のための広範な実験を行う。この結果は、resformerが幅広い解像度に向けたスケーリング能力を持っているという強力な定量的証拠を提供する。例えば、ResFormer-B-MRは、比較的低解像度と高解像度(96と640)で評価すると、Top-1の精度が75.86%と81.72%に達する(DeiT-Bより48%と7.49%良い)。また、ResFormerは柔軟性があり、セマンティックセグメンテーションやビデオアクション認識に容易に拡張できることを示す。

関連論文リスト

Elastic-DETR: Making Image Resolution Learnable with Content-Specific Network Prediction [0.612477318852572]
我々は,複数の画像解像度の弾性利用を可能にする,Elastic-DETRと呼ばれる学習可能な解像度のための新しい戦略を導入する。我々のネットワークは、コンパクトなスケール予測モジュールを用いて、画像の内容に基づいて適応的なスケールファクタを提供する。解像度の柔軟性を活用することで、精度と計算複雑性のトレードオフを様々に示す様々なモデルを実演することができる。
論文参考訳（メタデータ） (2024-12-09T09:46:21Z)
ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文参考訳（メタデータ） (2024-03-27T08:53:13Z)
Recurrent Multi-scale Transformer for High-Resolution Salient Object Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文参考訳（メタデータ） (2023-08-07T17:49:04Z)
Improving Performance of Object Detection using the Mechanisms of Visual Recognition in Humans [0.4297070083645048]
我々はまず、画像解像度の関数として最先端のディープオブジェクト認識ネットワークであるFaster-RCNNの性能を追跡する。また、認識過程において、異なる空間周波数が物体に関する異なる情報を伝えることも示している。単分解能ネットワークではなく,多分解能オブジェクト認識フレームワークを提案する。
論文参考訳（メタデータ） (2023-01-23T19:09:36Z)
Learning Resolution-Adaptive Representations for Cross-Resolution Person Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文参考訳（メタデータ） (2022-07-09T03:49:51Z)
Resolution based Feature Distillation for Cross Resolution Person Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文参考訳（メタデータ） (2021-09-16T11:07:59Z)
Resolution-invariant Person ReID Based on Feature Transformation and Self-weighted Attention [14.777001614779806]
Person Re-identification (ReID) は、画像やビデオのシーケンスで同一人物と一致することを目的としたコンピュータビジョンタスクである。本研究では,ReID特徴変換(RAFT)モジュールとSWA(Self-weighted attention)ReIDモジュールを備えた,新しい2ストリームネットワークを提案する。どちらのモジュールも、解決不変表現を得るために共同で訓練される。
論文参考訳（メタデータ） (2021-01-12T15:22:41Z)
Resolution Switchable Networks for Runtime Efficient Image Recognition [46.09537029831355]
本稿では,推論時に画像解像度を切り替えることのできる,単一の畳み込みニューラルネットワークを訓練する一般的な手法を提案する。提案手法でトレーニングしたネットワークは、Resolvation Switchable Networks (RS-Nets) と呼ばれる。
論文参考訳（メタデータ） (2020-07-19T02:12:59Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)
Cross-Resolution Adversarial Dual Network for Person Re-Identification and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文参考訳（メタデータ） (2020-02-19T07:21:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。