論文の概要: Decoder Denoising Pretraining for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2205.11423v1
- Date: Mon, 23 May 2022 16:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 19:33:02.015152
- Title: Decoder Denoising Pretraining for Semantic Segmentation
- Title(参考訳): セマンティクスセグメンテーションのためのプリトレーニングのためのデコーダ
- Authors: Emmanuel Brempong Asiedu, Simon Kornblith, Ting Chen, Niki Parmar,
Matthias Minderer and Mohammad Norouzi
- Abstract要約: 本稿では,デノナイジングに基づくデコーダ事前学習手法を提案する。
ImageNetデータセットの事前学習をデノベートするデコーダは、エンコーダのみの教師付き事前学習よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 46.23441959230505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation labels are expensive and time consuming to acquire.
Hence, pretraining is commonly used to improve the label-efficiency of
segmentation models. Typically, the encoder of a segmentation model is
pretrained as a classifier and the decoder is randomly initialized. Here, we
argue that random initialization of the decoder can be suboptimal, especially
when few labeled examples are available. We propose a decoder pretraining
approach based on denoising, which can be combined with supervised pretraining
of the encoder. We find that decoder denoising pretraining on the ImageNet
dataset strongly outperforms encoder-only supervised pretraining. Despite its
simplicity, decoder denoising pretraining achieves state-of-the-art results on
label-efficient semantic segmentation and offers considerable gains on the
Cityscapes, Pascal Context, and ADE20K datasets.
- Abstract(参考訳): セマンティックセグメンテーションラベルは高価で、取得するのに時間がかかる。
したがって、プリトレーニングはセグメンテーションモデルのラベル効率を改善するために一般的に用いられる。
通常、セグメンテーションモデルのエンコーダは分類器として事前訓練され、デコーダはランダムに初期化される。
ここで、特にラベル付き例がほとんどない場合、デコーダのランダム初期化は最適でないと主張する。
本稿では,符号化器の教師付きプリトレインと組み合わせることができるデノイジングに基づくデコーダプリトレイン手法を提案する。
我々は、imagenetデータセット上でプリトレーニングを行うデコーダが、エンコーダのみを教師付きプリトレーニングに強く上回っていることを発見した。
その単純さにもかかわらず、プレトレーニングのデコーダはラベル効率の良いセマンティックセグメンテーションの最先端の結果を達成し、Cityscapes、Pascal Context、ADE20Kデータセットに大きな利益をもたらす。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Transfer Learning for Segmentation Problems: Choose the Right Encoder
and Skip the Decoder [0.0]
ダウンストリームタスクのパフォーマンスを向上させるために、最初は異なるデータでトレーニングされたモデルを再利用するのが一般的です。
本研究では,画素単位の分類問題であるセグメンテーション問題に対する移動学習の影響について検討する。
デコーダのトランスファー学習は下流のセグメンテーションタスクに役立ちませんが、エンコーダのトランスファー学習は本当に有益です。
論文 参考訳(メタデータ) (2022-07-29T07:02:05Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - EncoderMI: Membership Inference against Pre-trained Encoders in
Contrastive Learning [27.54202989524394]
コントラスト学習によって事前訓練された画像エンコーダに対する最初のメンバーシップ推論手法であるMIを提案する。
複数のデータセットで事前学習した画像エンコーダと、OpenAIが収集した4億(画像、テキスト)のペアで事前学習したContrastive Language- Image Pre-training (CLIP)画像エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-08-25T03:00:45Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。