論文の概要: RePre: Improving Self-Supervised Vision Transformer with Reconstructive
Pre-training
- arxiv url: http://arxiv.org/abs/2201.06857v2
- Date: Wed, 19 Jan 2022 03:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 13:28:28.737630
- Title: RePre: Improving Self-Supervised Vision Transformer with Reconstructive
Pre-training
- Title(参考訳): Repre: 再構成前トレーニングによる自己監督型視覚変換器の改良
- Authors: Luya Wang, Feng Liang, Yangguang Li, Honggang Zhang, Wanli Ouyang,
Jing Shao
- Abstract要約: 本稿では,Reconstructive Pre-Training (RePre) を用いて,局所特徴学習を自己教師型視覚変換器に組み込む。
我々のRePreは、既存のコントラストの目的と平行して生画像のピクセルを再構成するブランチを追加することで、コントラストのフレームワークを拡張します。
- 参考スコア(独自算出の注目度): 80.44284270879028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, self-supervised vision transformers have attracted unprecedented
attention for their impressive representation learning ability. However, the
dominant method, contrastive learning, mainly relies on an instance
discrimination pretext task, which learns a global understanding of the image.
This paper incorporates local feature learning into self-supervised vision
transformers via Reconstructive Pre-training (RePre). Our RePre extends
contrastive frameworks by adding a branch for reconstructing raw image pixels
in parallel with the existing contrastive objective. RePre is equipped with a
lightweight convolution-based decoder that fuses the multi-hierarchy features
from the transformer encoder. The multi-hierarchy features provide rich
supervisions from low to high semantic information, which are crucial for our
RePre. Our RePre brings decent improvements on various contrastive frameworks
with different vision transformer architectures. Transfer performance in
downstream tasks outperforms supervised pre-training and state-of-the-art
(SOTA) self-supervised counterparts.
- Abstract(参考訳): 近年、自己監督型視覚変換器は印象的な表現学習能力で前例のない注目を集めている。
しかし、コントラスト学習という支配的な手法は、主に画像のグローバルな理解を学習するインスタンス識別プレテキストタスクに依存している。
本稿では,Reconstructive Pre-Training(RePre)を用いて,局所特徴学習を自己教師型視覚変換器に組み込む。
私たちのrepreは、既存のコントラスト目的と並行して生のピクセルを再構築するブランチを追加することで、コントラストフレームワークを拡張します。
RePreは軽量な畳み込みベースのデコーダを備えており、トランスフォーマーエンコーダのマルチ階層機能を融合している。
マルチ階層機能は、低レベルから高レベルのセマンティック情報まで、豊富な監視を提供します。
私たちのRePreは、異なるビジョントランスフォーマーアーキテクチャを持つさまざまなコントラストフレームワークに対して、適切な改善を提供します。
下流タスクにおける転送性能は、教師付き事前訓練およびSOTA(State-of-the-art)自己監督タスクよりも優れる。
関連論文リスト
- Universal Approximation of Visual Autoregressive Transformers [28.909655919558706]
分析をVisual Auto Regressive Transformerに拡張します。
Varは、新しい、スケーラブルで粗い次世代の予測フレームワークを使って、画像を生成するための大きなステップである。
本研究は,効率的なVARトランスフォーマー戦略のための重要な設計原則を提供する。
論文 参考訳(メタデータ) (2025-02-10T05:36:30Z) - Varformer: Adapting VAR's Generative Prior for Image Restoration [6.0648320320309885]
新しい画像生成パラダイムであるVARは、次世代の予測アプローチを適用することで、生成品質の拡散モデルを上回る。
VAR内の複数スケールの潜在表現を復元として定式化し、繊細に設計されたVarFormerフレームワークを前進させる。
論文 参考訳(メタデータ) (2024-12-30T16:32:55Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - Boosting Image Restoration via Priors from Pre-trained Models [54.83907596825985]
我々は、OSFによるターゲット復元ネットワークの復元結果を改善するために、Pre-Train-Guided Refinement Module (PTG-RM)と呼ばれる軽量モジュールを学習する。
PTG-RMは、低照度強化、デラリニング、デブロアリング、デノナイジングなど、様々なタスクにおける様々なモデルの復元性能を効果的に向上させる。
論文 参考訳(メタデータ) (2024-03-11T15:11:57Z) - Segmentation Guided Sparse Transformer for Under-Display Camera Image
Restoration [91.65248635837145]
Under-Display Camera(UDC)は、ディスプレイパネルの下にカメラを隠してフルスクリーン表示を実現する新興技術である。
本稿では,UDC 画像復元に Vision Transformer を用いることで,大量の冗長情報やノイズを大域的注目度で検出する。
UDC劣化画像から高品質な画像を復元するためのガイドスパース変換器(SGSFormer)を提案する。
論文 参考訳(メタデータ) (2024-03-09T13:11:59Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Visual Prompt Tuning for Generative Transfer Learning [26.895321693202284]
生成的知識伝達による視覚変換器の学習法を提案する。
我々は,映像を自己回帰的あるいは非自己回帰的変換器への視覚トークンのシーケンスとして表現する最先端の生成的視覚変換器を基盤とする。
新しい領域に適応するために、画像トークンシーケンスへのプロンプトと呼ばれる学習可能なトークンを優先するプロンプトチューニングを用いる。
論文 参考訳(メタデータ) (2022-10-03T14:56:05Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。