論文の概要: Multi-Level Contrastive Learning for Dense Prediction Task
- arxiv url: http://arxiv.org/abs/2304.02010v1
- Date: Tue, 4 Apr 2023 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 12:45:23.495270
- Title: Multi-Level Contrastive Learning for Dense Prediction Task
- Title(参考訳): ディエンス予測タスクのためのマルチレベルコントラスト学習
- Authors: Qiushan Guo, Yizhou Yu, Yi Jiang, Jiannan Wu, Zehuan Yuan, Ping Luo
- Abstract要約: 本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
- 参考スコア(独自算出の注目度): 59.591755258395594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we present Multi-Level Contrastive Learning for Dense
Prediction Task (MCL), an efficient self-supervised method for learning
region-level feature representation for dense prediction tasks. Our method is
motivated by the three key factors in detection: localization, scale
consistency and recognition. To explicitly encode absolute position and scale
information, we propose a novel pretext task that assembles multi-scale images
in a montage manner to mimic multi-object scenarios. Unlike the existing
image-level self-supervised methods, our method constructs a multi-level
contrastive loss that considers each sub-region of the montage image as a
singleton. Our method enables the neural network to learn regional semantic
representations for translation and scale consistency while reducing
pre-training epochs to the same as supervised pre-training. Extensive
experiments demonstrate that MCL consistently outperforms the recent
state-of-the-art methods on various datasets with significant margins. In
particular, MCL obtains 42.5 AP$^\mathrm{bb}$ and 38.3 AP$^\mathrm{mk}$ on COCO
with the 1x schedule fintuning, when using Mask R-CNN with R50-FPN backbone
pre-trained with 100 epochs. In comparison to MoCo, our method surpasses their
performance by 4.0 AP$^\mathrm{bb}$ and 3.1 AP$^\mathrm{mk}$. Furthermore, we
explore the alignment between pretext task and downstream tasks. We extend our
pretext task to supervised pre-training, which achieves a similar performance
to self-supervised learning. This result demonstrates the importance of the
alignment between pretext task and downstream tasks, indicating the potential
for wider applicability of our method beyond self-supervised settings.
- Abstract(参考訳): 本研究では,高密度予測タスクのための領域レベルの特徴表現を効率的に学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
絶対位置とスケール情報を明示的にエンコードするために,マルチスケール画像をモンタージュ方式で組み立て,多目的シナリオを模倣する新しいプリテキストタスクを提案する。
既存の画像レベルの自己監督手法とは異なり、モンタージュ画像の各サブリージョンをシングルトンとみなすマルチレベルのコントラスト損失を構成する。
本手法により,ニューラルネットワークは,事前学習期間を教師付き事前学習と同等に抑えつつ,翻訳とスケール一貫性のための局所的意味表現を学習できる。
大規模な実験により、MCLは様々なデータセットにおいて、最新の最先端の手法よりも一貫して優れていることが示された。
特に、42.5 AP$^\mathrm{bb}$と38.3 AP$^\mathrm{mk}$を1倍のスケジュール調整でCOCO上で取得し、Mask R-CNNとR50-FPNのバックボーンを100エポックで事前訓練する。
MoCoと比較して、本手法は性能を4.0 AP$^\mathrm{bb}$と3.1 AP$^\mathrm{mk}$で上回る。
さらに、プレテキストタスクと下流タスクのアライメントについても検討する。
プレテキストタスクを教師付き事前学習に拡張し、自己教師型学習と同じようなパフォーマンスを実現する。
この結果から,プレテキストタスクとダウンストリームタスクのアライメントの重要性が示され,自己教師付き設定以上の適用可能性を示す。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Single-Stage Open-world Instance Segmentation with Cross-task
Consistency Regularization [33.434628514542375]
オープンワールドのインスタンスセグメンテーションは、イメージからクラスに依存しないインスタンスをセグメントすることを目的としている。
本稿では,各インスタンスのマスクを直接生成する単一ステージフレームワークを提案する。
提案手法は, 完全教師付き設定と半教師付き設定の両方において, 印象的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-08-18T18:55:09Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。