論文の概要: Should we pre-train a decoder in contrastive learning for dense prediction tasks?
- arxiv url: http://arxiv.org/abs/2503.17526v1
- Date: Fri, 21 Mar 2025 20:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:01.855482
- Title: Should we pre-train a decoder in contrastive learning for dense prediction tasks?
- Title(参考訳): 厳密な予測タスクのための対照的な学習においてデコーダを事前訓練すべきか?
- Authors: Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki,
- Abstract要約: 本稿では,エンコーダのみの自己教師付き学習(SSL)を,効率的なエンコーダ・デコーダフレームワークに変換するためのフレームワークに依存しない適応手法を提案する。
まず、デコーダとその対照的な損失に対応するために、既存のアーキテクチャを更新する。
次に、重み付きエンコーダデコーダと非競合目的との対照的な損失を導入し、共同エンコーダデコーダアーキテクチャの事前学習を容易にする。
- 参考スコア(独自算出の注目度): 0.7237068561453082
- License:
- Abstract: Contrastive learning in self-supervised settings primarily focuses on pre-training encoders, while decoders are typically introduced and trained separately for downstream dense prediction tasks. This conventional approach, however, overlooks the potential benefits of jointly pre-training both the encoder and decoder. In this paper, we propose DeCon: a framework-agnostic adaptation to convert an encoder-only self-supervised learning (SSL) contrastive approach to an efficient encoder-decoder framework that can be pre-trained in a contrastive manner. We first update the existing architecture to accommodate a decoder and its respective contrastive loss. We then introduce a weighted encoder-decoder contrastive loss with non-competing objectives that facilitates the joint encoder-decoder architecture pre-training. We adapt two established contrastive SSL frameworks tailored for dense prediction tasks, achieve new state-of-the-art results in COCO object detection and instance segmentation, and match state-of-the-art performance on Pascal VOC semantic segmentation. We show that our approach allows for pre-training a decoder and enhances the representation power of the encoder and its performance in dense prediction tasks. This benefit holds across heterogeneous decoder architectures between pre-training and fine-tuning and persists in out-of-domain, limited-data scenarios.
- Abstract(参考訳): 自己教師付き環境でのコントラスト学習は、主に訓練前のエンコーダに焦点を当て、デコーダは通常、下流の密集予測タスクのために個別に導入、訓練される。
しかし、この手法はエンコーダとデコーダの両方を共同で事前学習する潜在的な利点を見落としている。
本稿では,デコンを提案する。デコンは,エンコーダのみの自己教師付き学習(SSL)を,コントラスト的に事前学習可能な効率的なエンコーダ-デコーダフレームワークに変換するためのフレームワークに依存しない適応手法である。
まず、デコーダとその対照的な損失に対応するために、既存のアーキテクチャを更新する。
次に、重み付きエンコーダデコーダと非競合目的との対照的な損失を導入し、共同エンコーダデコーダアーキテクチャの事前学習を容易にする。
我々は、高密度な予測タスクに適した2つの確立されたコントラストSSLフレームワークを適用し、COCOオブジェクトの検出とインスタンスセグメンテーションにおける新しい最先端結果を実現し、Pascal VOCセグメンテーションにおける最先端のパフォーマンスに適合する。
提案手法は,デコーダの事前学習を可能にし,エンコーダの表現力と高密度予測タスクにおける性能を向上させる。
この利点は、事前トレーニングと微調整の間に異質なデコーダアーキテクチャをまたいで保持し、ドメイン外の限定データシナリオで永続化する。
関連論文リスト
- Downstream-agnostic Adversarial Examples [66.8606539786026]
AdvEncoderは、事前訓練されたエンコーダに基づいて、ダウンストリームに依存しない普遍的敵の例を生成するための最初のフレームワークである。
従来の逆数例とは異なり、事前訓練されたエンコーダは分類ラベルではなく特徴ベクトルを出力するのみである。
その結果、攻撃者はトレーニング済みのデータセットやダウンストリームのデータセットを知らずに、ダウンストリームのタスクを攻撃できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T10:16:47Z) - Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense
Passage Retrieval [10.905033385938982]
Masked Auto-Encoder (MAE) 事前トレーニングアーキテクチャが最も有望である。
本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。
論文 参考訳(メタデータ) (2023-05-22T16:27:10Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - Decoder Denoising Pretraining for Semantic Segmentation [46.23441959230505]
本稿では,デノナイジングに基づくデコーダ事前学習手法を提案する。
ImageNetデータセットの事前学習をデノベートするデコーダは、エンコーダのみの教師付き事前学習よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-23T16:08:31Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - EncoderMI: Membership Inference against Pre-trained Encoders in
Contrastive Learning [27.54202989524394]
コントラスト学習によって事前訓練された画像エンコーダに対する最初のメンバーシップ推論手法であるMIを提案する。
複数のデータセットで事前学習した画像エンコーダと、OpenAIが収集した4億(画像、テキスト)のペアで事前学習したContrastive Language- Image Pre-training (CLIP)画像エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-08-25T03:00:45Z) - Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder [75.84152924972462]
多くの実世界のアプリケーションはSiameseネットワークを使用して、テキストシーケンスを大規模に効率的にマッチングします。
本稿では,シームズアーキテクチャにおけるシーケンスマッチング専用の言語モデルを事前学習する。
論文 参考訳(メタデータ) (2021-02-18T08:08:17Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Jointly Optimizing State Operation Prediction and Value Generation for
Dialogue State Tracking [23.828348485513043]
オープン語彙を用いた多ドメイン対話状態追跡(DST)の問題点について検討する。
既存のアプローチではBERTエンコーダとコピーベースのRNNデコーダを使用し、そこでエンコーダは状態操作を予測し、デコーダは新しいスロット値を生成する。
本稿では,1つのBERTがエンコーダとデコーダの両方として機能する,純粋にトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-24T04:54:52Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。