論文の概要: SRMAE: Masked Image Modeling for Scale-Invariant Deep Representations
- arxiv url: http://arxiv.org/abs/2308.08884v1
- Date: Thu, 17 Aug 2023 09:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:14:52.032028
- Title: SRMAE: Masked Image Modeling for Scale-Invariant Deep Representations
- Title(参考訳): srmae: スケール不変深部表現のためのマスク画像モデリング
- Authors: Zhiming Wang, Lin Gu, Feng Lu
- Abstract要約: マスクド画像モデリング(MIM)のための自己教師型信号として画像スケールを用いることを提案する。
我々のフレームワークは、予測ヘッドの設計に超解像(SR)の最新の進歩を利用する。
また,低分解能表情認識タスクにおいて74.84%の精度を達成し,現状のFMDを9.48%超えた。
- 参考スコア(独自算出の注目度): 17.902523856490227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the prevalence of scale variance in nature images, we propose to use
image scale as a self-supervised signal for Masked Image Modeling (MIM). Our
method involves selecting random patches from the input image and downsampling
them to a low-resolution format. Our framework utilizes the latest advances in
super-resolution (SR) to design the prediction head, which reconstructs the
input from low-resolution clues and other patches. After 400 epochs of
pre-training, our Super Resolution Masked Autoencoders (SRMAE) get an accuracy
of 82.1% on the ImageNet-1K task. Image scale signal also allows our SRMAE to
capture scale invariance representation. For the very low resolution (VLR)
recognition task, our model achieves the best performance, surpassing DeriveNet
by 1.3%. Our method also achieves an accuracy of 74.84% on the task of
recognizing low-resolution facial expressions, surpassing the current
state-of-the-art FMD by 9.48%.
- Abstract(参考訳): 自然画像におけるスケールのばらつきの頻度から,マスクド画像モデリング(MIM)のための自己教師信号として画像スケールを用いることを提案する。
本手法では,入力画像からランダムパッチを選択し,低解像度フォーマットにダウンサンプリングする。
超解像(super- resolution, sr)の最新の進歩を活かして, 低解像の手がかりやパッチから入力を再構成する予測ヘッドを設計した。
400回の事前トレーニングの後、私たちの超分解能マスケオートエンコーダ(SRMAE)はImageNet-1Kタスクで82.1%の精度を得る。
画像スケール信号により、SRMAEはスケール不変の表現をキャプチャできる。
超低解像度(VLR)認識タスクでは、DeriveNetを1.3%上回るパフォーマンスを実現しています。
また,低分解能表情認識タスクにおいて74.84%の精度を達成し,現状のFMDを9.48%超えた。
関連論文リスト
- Deep Optimal Transport: A Practical Algorithm for Photo-realistic Image Restoration [31.58365182858562]
事前学習したモデルの知覚的品質および/または平均二乗誤差(MSE)を制御できる画像復元アルゴリズムを提案する。
モデルによって復元された約1ダースの画像を考えると、新たな画像に対するモデルの知覚的品質と/またはMSEを、それ以上の訓練をすることなく大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-04T12:21:53Z) - Patch-wise Features for Blur Image Classification [3.762360672951513]
本手法により, ぼかしとシャープな画像劣化の区別が可能となる。
オープンデータセットで行った実験では、提案した低計算手法が検証セットの平均精度を90.1%向上することが示された。
提案手法はCPU上のVGG16ベースモデルよりも10倍高速で、入力画像サイズに線形にスケールし、低計算エッジデバイスに実装するのに適している。
論文 参考訳(メタデータ) (2023-04-06T15:39:11Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - CDPMSR: Conditional Diffusion Probabilistic Models for Single Image
Super-Resolution [91.56337748920662]
拡散確率モデル(DPM)は画像から画像への変換において広く採用されている。
単純だが自明なDPMベースの超解像後処理フレームワーク,すなわちcDPMSRを提案する。
本手法は, 定性的および定量的な結果の両面において, 先行試行を超越した手法である。
論文 参考訳(メタデータ) (2023-02-14T15:13:33Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Perception-Distortion Balanced ADMM Optimization for Single-Image
Super-Resolution [29.19388490351459]
低周波制約(LFc-SR)を持つ新しい超解像モデルを提案する。
制約付きモデルの非自明な学習のためのADMMに基づく交互最適化手法を提案する。
実験の結果,提案手法は加工後処理の煩雑さを伴わず,最先端の性能を達成できた。
論文 参考訳(メタデータ) (2022-08-05T05:37:55Z) - Patch-based image Super Resolution using generalized Gaussian mixture
model [0.0]
単一画像超解像法(SISR)は、低分解能観測から高分解能でクリーンな画像を復元することを目的としている。
パッチベースのアプローチのファミリーは、かなりの注目と開発を受けています。
本稿では,低分解能パッチとそれに対応する高分解能パッチのペアからGGMM(Command Generalized Gaussian Mix Model)を基準データから学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-07T07:40:05Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z) - RAIN: A Simple Approach for Robust and Accurate Image Classification
Networks [156.09526491791772]
既存の敵防衛手法の大部分は、予測精度を犠牲にして堅牢性を実現することが示されている。
本稿では,ロバストおよび高精度画像分類N(RAIN)と呼ぶ新しい前処理フレームワークを提案する。
RAINは入力に対してランダム化を適用して、モデルフォワード予測パスと後方勾配パスの関係を壊し、モデルロバスト性を改善する。
STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。
論文 参考訳(メタデータ) (2020-04-24T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。