論文の概要: Towards Vision Transformer Unrolling Fixed-Point Algorithm: a Case Study
on Image Restoration
- arxiv url: http://arxiv.org/abs/2301.12332v1
- Date: Sun, 29 Jan 2023 02:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:43:19.009683
- Title: Towards Vision Transformer Unrolling Fixed-Point Algorithm: a Case Study
on Image Restoration
- Title(参考訳): 固定点アルゴリズムによる視覚変換器の展開:画像復元を事例として
- Authors: Peng Qiao, Sidun Liu, Tao Sun, Ke Yang, Yong Dou
- Abstract要約: 本稿では、FPをアンロールし、FPformerと呼ばれるTransformerブロックを介して各アンロールされたプロセスを近似するフレームワークを提案する。
トランスフォーマーの能力をフル活用するために,自己教師付き事前学習と教師付き微調整を用いて,提案手法を画像復元に適用する。
FPformer、FPRformer、FPAformerは、自己教師付き事前学習と教師付き微調整を用いて、最先端の画像復元法と競争性能と訓練効率の向上を実現している。
- 参考スコア(独自算出の注目度): 21.79667520132755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The great success of Deep Neural Networks (DNNs) has inspired the algorithmic
development of DNN-based Fixed-Point (DNN-FP) for computer vision tasks. DNN-FP
methods, trained by Back-Propagation Through Time or computing the inaccurate
inversion of the Jacobian, suffer from inferior representation ability.
Motivated by the representation power of the Transformer, we propose a
framework to unroll the FP and approximate each unrolled process via
Transformer blocks, called FPformer. To reduce the high consumption of memory
and computation, we come up with FPRformer by sharing parameters between the
successive blocks. We further design a module to adapt Anderson acceleration to
FPRformer to enlarge the unrolled iterations and improve the performance,
called FPAformer. In order to fully exploit the capability of the Transformer,
we apply the proposed model to image restoration, using self-supervised
pre-training and supervised fine-tuning. 161 tasks from 4 categories of image
restoration problems are used in the pre-training phase. Hereafter, the
pre-trained FPformer, FPRformer, and FPAformer are further fine-tuned for the
comparison scenarios. Using self-supervised pre-training and supervised
fine-tuning, the proposed FPformer, FPRformer, and FPAformer achieve
competitive performance with state-of-the-art image restoration methods and
better training efficiency. FPAformer employs only 29.82% parameters used in
SwinIR models, and provides superior performance after fine-tuning. To train
these comparison models, it takes only 26.9% time used for training SwinIR
models. It provides a promising way to introduce the Transformer in low-level
vision tasks.
- Abstract(参考訳): Deep Neural Networks (DNN) の大きな成功は、コンピュータビジョンタスクのためのDNNベースの固定点(DNN-FP)のアルゴリズム開発にインスピレーションを与えた。
DNN-FP法は、時間を通してバックプロパゲーションによって訓練されたり、ヤコビアンの不正確な逆転を計算したりするが、表現能力に劣る。
トランスフォーマーの表現力に触発され、FPをアンロールし、トランスフォーマーブロック(FPformer)と呼ばれる各アンロールされたプロセスを近似するフレームワークを提案する。
メモリ消費と計算量を削減するため、連続するブロック間でパラメータを共有することでfprformerを考案した。
さらに,アンダーソン加速度をfprformerに適用し,未ロールのイテレーションを拡大し,fpaformerと呼ばれる性能を向上させるモジュールを設計した。
トランスフォーマーの能力をフル活用するために,自己教師付き事前学習と教師付き微調整を用いた画像復元モデルを提案する。
画像復元問題の4つのカテゴリから161のタスクが事前トレーニングフェーズで使用されている。
その後、事前訓練されたFPformer、FPRformer、FPAformerは、比較シナリオをさらに微調整する。
fpformer, fprformer, fpaformerは, 自己教師付き事前学習と教師付き微調整を用い, 最先端画像復元法とより良い訓練効率を両立させた。
FPAformerは29.82%のパラメータしか使用せず、微調整後に優れた性能を提供する。
これらの比較モデルをトレーニングするには、SwinIRモデルのトレーニングに使用される時間は26.9%しかかからない。
低レベルの視覚タスクでTransformerを導入するための有望な方法を提供する。
関連論文リスト
- PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners [65.93130697098658]
本稿では、予測学習のための純粋なトランスフォーマーベースのフレームワークであるPredFormerを提案する。
PredFormerは、リカレントフリーでトランスフォーマーベースの設計で、シンプルかつ効率的である。
合成および実世界のデータセットに関する実験は、PredFormerが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution [6.367865391518726]
トランスフォーマーベースモデルは、画像超解像(SR)を含む低レベル視覚タスクにおいて顕著な結果を得た
グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。
ウェーブレット損失を利用してTransformerモデルをトレーニングし、定量的および主観的性能を向上させる。
論文 参考訳(メタデータ) (2024-04-17T11:25:19Z) - Boosting Image Restoration via Priors from Pre-trained Models [54.83907596825985]
我々は、OSFによるターゲット復元ネットワークの復元結果を改善するために、Pre-Train-Guided Refinement Module (PTG-RM)と呼ばれる軽量モジュールを学習する。
PTG-RMは、低照度強化、デラリニング、デブロアリング、デノナイジングなど、様々なタスクにおける様々なモデルの復元性能を効果的に向上させる。
論文 参考訳(メタデータ) (2024-03-11T15:11:57Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - PaReprop: Fast Parallelized Reversible Backpropagation [6.901732343162485]
非常にメモリ効率のよいトレーニングのためのエキサイティングな新しい方法として、可逆変換器が導入されている。
それらは、バックプロパゲーションフェーズにおけるアクティベーション再計算のさらなる計算オーバーヘッドを伴っている。
本稿では,高速並列化可逆バックプロパゲーションアルゴリズムPaRepropを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:59:32Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - EF-Train: Enable Efficient On-device CNN Training on FPGA Through Data
Reshaping for Online Adaptation or Personalization [11.44696439060875]
EF-Trainは、チャネルレベルの並列性に基づく畳み込みカーネルを統一した、効率的なDNNトレーニングアクセラレータである。
リソース制限された低消費電力エッジレベルFPGAのエンドツーエンドトレーニングを実現することができる。
我々の設計ではスループットとエネルギー効率の点で46.99GFLOPSと6.09GFLOPS/Wを実現している。
論文 参考訳(メタデータ) (2022-02-18T18:27:42Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。