論文の概要: On Efficient Transformer and Image Pre-training for Low-level Vision
- arxiv url: http://arxiv.org/abs/2112.10175v1
- Date: Sun, 19 Dec 2021 15:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:33:40.051303
- Title: On Efficient Transformer and Image Pre-training for Low-level Vision
- Title(参考訳): 低レベルビジョンのための効率的な変圧器と画像事前学習について
- Authors: Wenbo Li, Xin Lu, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia
- Abstract要約: プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
- 参考スコア(独自算出の注目度): 74.22436001426517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has marked numerous state of the arts in high-level computer
vision, but few attempts have ever been made to investigate how pre-training
acts in image processing systems. In this paper, we present an in-depth study
of image pre-training. To conduct this study on solid ground with practical
value in mind, we first propose a generic, cost-effective Transformer-based
framework for image processing. It yields highly competitive performance across
a range of low-level tasks, though under constrained parameters and
computational complexity. Then, based on this framework, we design a whole set
of principled evaluation tools to seriously and comprehensively diagnose image
pre-training in different tasks, and uncover its effects on internal network
representations. We find pre-training plays strikingly different roles in
low-level tasks. For example, pre-training introduces more local information to
higher layers in super-resolution (SR), yielding significant performance gains,
while pre-training hardly affects internal feature representations in
denoising, resulting in a little gain. Further, we explore different methods of
pre-training, revealing that multi-task pre-training is more effective and
data-efficient. All codes and models will be released at
https://github.com/fenglinglwb/EDT.
- Abstract(参考訳): プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの芸術の状態を記録しているが、画像処理システムにおける事前トレーニングがどのように振舞うかを調べる試みは、ほとんど行われていない。
本稿では,画像の事前学習に関する詳細な研究を行う。
本研究は,まず,画像処理のための汎用的で費用対効果の高いトランスフォーマーベースのフレームワークを提案する。
制約付きパラメータと計算複雑性の下では、様々な低レベルのタスクに対して高い競争性能が得られる。
そして,この枠組みに基づいて,各タスクにおける画像事前学習を深刻かつ包括的に診断し,内部ネットワーク表現への影響を明らかにするための,一連の基本的評価ツールを設計する。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
例えば、事前トレーニングは、スーパーレゾリューション(sr)の上位層により多くのローカル情報を導入し、大幅なパフォーマンス向上をもたらすが、事前トレーニングは、ノイズ発生時の内部特徴表現に影響を及ぼさないため、利益は少ない。
さらに,マルチタスク事前学習がより効果的でデータ効率が高いことを明らかにする。
すべてのコードとモデルはhttps://github.com/fenglinglwb/edtでリリースされる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - A Closer Look at Self-Supervised Lightweight Vision Transformers [44.44888945683147]
大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法のベンチマークを行った。
バニラ・ライトウェイトなViTでさえ、デリケートなアーキテクチャ設計を持つ以前のSOTAネットワークに匹敵する性能を示している。
論文 参考訳(メタデータ) (2022-05-28T14:14:57Z) - Are Large-scale Datasets Necessary for Self-Supervised Pre-training? [29.49873710927313]
対象のタスクデータのみを活用する自己指導型事前学習シナリオについて検討する。
本研究は,BEiTなどのデノイングオートエンコーダが,事前学習データの種類やサイズに対してより堅牢であることを示す。
COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。
論文 参考訳(メタデータ) (2021-12-20T18:41:32Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z) - Efficient Visual Pretraining with Contrastive Detection [31.444554574326283]
そこで我々は,オブジェクトレベルの特徴を拡張的に識別するタスク表現を,新たな自己監督的,コントラスト的検出に導入する。
この目的は画像ごとに豊富な学習信号を抽出し、ImageNetからCOCOへの最先端の転送性能をもたらします。
特に、私たちの最強のImageNet-pretrainedモデルは、これまでで最大の自己教師型システムであるSEERと同等に機能します。
論文 参考訳(メタデータ) (2021-03-19T14:05:12Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。