論文の概要: Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction
- arxiv url: http://arxiv.org/abs/2503.17526v2
- Date: Thu, 31 Jul 2025 16:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:44.864194
- Title: Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction
- Title(参考訳): エンコーダの向こう: コントラスト付きエンコーダ-デコーダ
- Authors: Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki,
- Abstract要約: コントラスト付き事前学習をサポートする効率的なエンコーダ-デコーダ自己教師型学習(SSL)フレームワークであるDeConを提案する。
厳密な予測タスクに確立された対照的なSSLフレームワークを適用することで、DeConは新たな最先端の結果を達成する。
実験の結果,共同事前学習はエンコーダの表現力を向上し,高密度予測タスクの性能向上を図っている。
- 参考スコア(独自算出の注目度): 0.7237068561453082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning methods in self-supervised settings have primarily focused on pre-training encoders, while decoders are typically introduced and trained separately for downstream dense prediction tasks. However, this conventional approach overlooks the potential benefits of jointly pre-training both encoder and decoder. In this paper, we propose DeCon, an efficient encoder-decoder self-supervised learning (SSL) framework that supports joint contrastive pre-training. We first extend existing SSL architectures to accommodate diverse decoders and their corresponding contrastive losses. Then, we introduce a weighted encoder-decoder contrastive loss with non-competing objectives to enable the joint pre-training of encoder-decoder architectures. By adapting an established contrastive SSL framework for dense prediction tasks, DeCon achieves new state-of-the-art results: on COCO object detection and instance segmentation when pre-trained on COCO dataset; across almost all dense downstream benchmark tasks when pre-trained on COCO+ and ImageNet-1K. Our results demonstrate that joint pre-training enhances the representation power of the encoder and improves performance in dense prediction tasks. This gain persists across heterogeneous decoder architectures, various encoder architectures, and in out-of-domain limited-data scenarios.
- Abstract(参考訳): 自己教師付き環境でのコントラスト学習は、主に事前学習のエンコーダに焦点を合わせ、デコーダは通常、下流の密集予測タスクのために個別に導入、訓練される。
しかし、この手法はエンコーダとデコーダの両方を共同で事前学習する潜在的な利点を見落としている。
本稿では,協調型コントラスト事前学習をサポートする効率的なエンコーダ・デコーダ型自己教師型学習(SSL)フレームワークであるDeConを提案する。
まず既存のSSLアーキテクチャを拡張し、多様なデコーダとそれに対応する対照的な損失に対応する。
次に、重み付きエンコーダデコーダと非競合目的との対比損失を導入し、エンコーダデコーダアーキテクチャの協調事前学習を可能にする。
COCOデータセットで事前トレーニングされた場合のCOCOオブジェクト検出とインスタンスセグメンテーション、COCO+とImageNet-1Kで事前トレーニングされた場合のほぼすべてのダウンストリームベンチマークタスク。
実験の結果,共同事前学習はエンコーダの表現力を向上し,高密度予測タスクの性能向上を図っている。
この利得は異種デコーダアーキテクチャ、様々なエンコーダアーキテクチャ、ドメイン外リミテッドデータシナリオにまたがって持続する。
関連論文リスト
- Is Pre-training Applicable to the Decoder for Dense Prediction? [13.542355644833544]
これは、3つの革新的な設計を通じて"事前訓練されたエンコーダ$times$プレトレーニングされたデコーダ"のコラボレーションを促進する。
事前トレーニングされたエンコーダと事前トレーニングされたデコーダを単純に結合することで、$times$Netは自身を非常に有望なアプローチと区別する。
合理化された設計にもかかわらず、$times$Netはモノクロ深度推定やセマンティックセグメンテーションといったタスクにおいて高度なメソッドよりも優れている。
論文 参考訳(メタデータ) (2025-03-05T05:16:28Z) - Downstream-agnostic Adversarial Examples [66.8606539786026]
AdvEncoderは、事前訓練されたエンコーダに基づいて、ダウンストリームに依存しない普遍的敵の例を生成するための最初のフレームワークである。
従来の逆数例とは異なり、事前訓練されたエンコーダは分類ラベルではなく特徴ベクトルを出力するのみである。
その結果、攻撃者はトレーニング済みのデータセットやダウンストリームのデータセットを知らずに、ダウンストリームのタスクを攻撃できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T10:16:47Z) - Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense
Passage Retrieval [10.905033385938982]
Masked Auto-Encoder (MAE) 事前トレーニングアーキテクチャが最も有望である。
本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。
論文 参考訳(メタデータ) (2023-05-22T16:27:10Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - Decoder Denoising Pretraining for Semantic Segmentation [46.23441959230505]
本稿では,デノナイジングに基づくデコーダ事前学習手法を提案する。
ImageNetデータセットの事前学習をデノベートするデコーダは、エンコーダのみの教師付き事前学習よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-23T16:08:31Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - EncoderMI: Membership Inference against Pre-trained Encoders in
Contrastive Learning [27.54202989524394]
コントラスト学習によって事前訓練された画像エンコーダに対する最初のメンバーシップ推論手法であるMIを提案する。
複数のデータセットで事前学習した画像エンコーダと、OpenAIが収集した4億(画像、テキスト)のペアで事前学習したContrastive Language- Image Pre-training (CLIP)画像エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-08-25T03:00:45Z) - Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder [75.84152924972462]
多くの実世界のアプリケーションはSiameseネットワークを使用して、テキストシーケンスを大規模に効率的にマッチングします。
本稿では,シームズアーキテクチャにおけるシーケンスマッチング専用の言語モデルを事前学習する。
論文 参考訳(メタデータ) (2021-02-18T08:08:17Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Jointly Optimizing State Operation Prediction and Value Generation for
Dialogue State Tracking [23.828348485513043]
オープン語彙を用いた多ドメイン対話状態追跡(DST)の問題点について検討する。
既存のアプローチではBERTエンコーダとコピーベースのRNNデコーダを使用し、そこでエンコーダは状態操作を予測し、デコーダは新しいスロット値を生成する。
本稿では,1つのBERTがエンコーダとデコーダの両方として機能する,純粋にトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-24T04:54:52Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。