論文の概要: Masked Autoencoders as Image Processors
- arxiv url: http://arxiv.org/abs/2303.17316v1
- Date: Thu, 30 Mar 2023 12:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:40:05.486029
- Title: Masked Autoencoders as Image Processors
- Title(参考訳): イメージプロセッサとしてのマスクオートエンコーダ
- Authors: Huiyu Duan, Wei Shen, Xiongkuo Min, Danyang Tu, Long Teng, Jia Wang,
Guangtao Zhai
- Abstract要約: 機能事前訓練のためのマスク付きオートエンコーダ(MAE)はトランスフォーマーの可能性を解き放った。
本稿では,マスク付きオートエンコーダが,画像処理タスクのためのスケーラブルな自己教師型学習器であることを示す。
- 参考スコア(独自算出の注目度): 35.531254533198165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have shown significant effectiveness for various vision tasks
including both high-level vision and low-level vision. Recently, masked
autoencoders (MAE) for feature pre-training have further unleashed the
potential of Transformers, leading to state-of-the-art performances on various
high-level vision tasks. However, the significance of MAE pre-training on
low-level vision tasks has not been sufficiently explored. In this paper, we
show that masked autoencoders are also scalable self-supervised learners for
image processing tasks. We first present an efficient Transformer model
considering both channel attention and shifted-window-based self-attention
termed CSformer. Then we develop an effective MAE architecture for image
processing (MAEIP) tasks. Extensive experimental results show that with the
help of MAEIP pre-training, our proposed CSformer achieves state-of-the-art
performance on various image processing tasks, including Gaussian denoising,
real image denoising, single-image motion deblurring, defocus deblurring, and
image deraining.
- Abstract(参考訳): トランスフォーマーは、ハイレベルビジョンとローレベルビジョンの両方を含む様々な視覚タスクに対して有意な効果を示した。
近年、機能事前学習のためのマスク付きオートエンコーダ(mae)がトランスフォーマーの可能性をさらに解き放ち、様々な高レベル視覚タスクにおける最先端のパフォーマンス向上につながった。
しかし、低レベル視覚タスクにおけるMAE事前訓練の重要性は十分に検討されていない。
本稿では,マスク付きオートエンコーダが画像処理タスクのためのスケーラブルな自己教師付き学習者であることを示す。
まず,チャネルアテンションとシフトウインドウに基づく自己注意型CSformerの両方を考慮した効率的なトランスフォーマーモデルを提案する。
そこで我々は,画像処理(MAEIP)タスクに有効なMAEアーキテクチャを開発した。
広範な実験結果から,提案するcsformerは,gaussian denoising,real image denoising,single-image motion deblurling,defocus debluring,image derainingなど,様々な画像処理タスクにおいて最先端の性能を実現する。
関連論文リスト
- Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Feature Guided Masked Autoencoder for Self-supervised Learning in Remote
Sensing [16.683132793313693]
Masked AutoEncoder (MAE) はリモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。
本研究では,多スペクトル画像に対する向き付けされた粒度(HOG)と正規化差分指標(NDI)の組合せを再構成し,SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。
論文 参考訳(メタデータ) (2023-10-28T09:43:13Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Masked Image Modeling with Denoising Contrast [30.31920660487222]
マスク付き画像モデリングは、視覚変換器の最先端性能でこの研究のラインを独占している。
画像内画像間のコントラスト制約を生成するための,新しい事前学習手法であるConMIMを導入する。
ConMIM-pretrained vision Transformer with various scales achieve promising results on downstream image classification, semantic segmentation, object detection, and instance segmentation task。
論文 参考訳(メタデータ) (2022-05-19T15:22:29Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。