論文の概要: Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2011.10043v2
- Date: Tue, 9 Mar 2021 14:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:32:35.208023
- Title: Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised
Visual Representation Learning
- Title(参考訳): propagate yourself: 教師なし視覚表現学習のためのピクセルレベルの一貫性の探求
- Authors: Zhenda Xie and Yutong Lin and Zheng Zhang and Yue Cao and Stephen Lin
and Han Hu
- Abstract要約: 我々は,高密度な特徴表現を学習するための画素レベルのプレテキストタスクを導入する。
ピクセル・ツー・プロパゲーション整合性タスクは、最先端のアプローチよりも優れた結果をもたらす。
結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示している。
- 参考スコア(独自算出の注目度): 60.75687261314962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning methods for unsupervised visual representation learning
have reached remarkable levels of transfer performance. We argue that the power
of contrastive learning has yet to be fully unleashed, as current methods are
trained only on instance-level pretext tasks, leading to representations that
may be sub-optimal for downstream tasks requiring dense pixel predictions. In
this paper, we introduce pixel-level pretext tasks for learning dense feature
representations. The first task directly applies contrastive learning at the
pixel level. We additionally propose a pixel-to-propagation consistency task
that produces better results, even surpassing the state-of-the-art approaches
by a large margin. Specifically, it achieves 60.2 AP, 41.4 / 40.5 mAP and 77.2
mIoU when transferred to Pascal VOC object detection (C4), COCO object
detection (FPN / C4) and Cityscapes semantic segmentation using a ResNet-50
backbone network, which are 2.6 AP, 0.8 / 1.0 mAP and 1.0 mIoU better than the
previous best methods built on instance-level contrastive learning. Moreover,
the pixel-level pretext tasks are found to be effective for pre-training not
only regular backbone networks but also head networks used for dense downstream
tasks, and are complementary to instance-level contrastive methods. These
results demonstrate the strong potential of defining pretext tasks at the pixel
level, and suggest a new path forward in unsupervised visual representation
learning. Code is available at \url{https://github.com/zdaxie/PixPro}.
- Abstract(参考訳): 教師なし視覚表現学習におけるコントラスト学習法は,伝達性能の顕著なレベルに達している。
コントラスト学習のパワーは、現在の手法は、インスタンスレベルのプリテキストタスクでのみ訓練されており、密度の高いピクセル予測を必要とする下流タスクに最適化された表現につながるため、まだ完全には解明されていないと我々は主張する。
本稿では,密度の高い特徴表現を学習するためのピクセルレベルのプリテキストタスクを提案する。
最初のタスクは、ピクセルレベルで直接コントラスト学習を適用する。
また,現状のアプローチを大きなマージンで超えつつも,より優れた結果が得られる画素間整合性タスクを提案する。
具体的には、Pascal VOCオブジェクト検出(C4)、COCOオブジェクト検出(FPN/C4)、ResNet-50バックボーンネットワークを使用したCityscapesセマンティックセマンティックセグメンテーション(2.6 AP、0.8/1.0 mAP、1.0 mIoU)に移行すると、60.2 AP、41.4/40.5 mAP、77.2 mIoUを達成する。
さらに、ピクセルレベルのプリテキストタスクは、通常のバックボーンネットワークだけでなく、密集した下流タスクに使われるヘッドネットワークを事前学習するのに有効であることが判明し、インスタンスレベルのコントラスト手法を補完する。
これらの結果は、ピクセルレベルでプリテキストタスクを定義する強力な可能性を示し、教師なしビジュアル表現学習における新しい道を提案する。
コードは \url{https://github.com/zdaxie/PixPro} で入手できる。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - CoDo: Contrastive Learning with Downstream Background Invariance for
Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。
プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。
MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-10T01:26:15Z) - CP2: Copy-Paste Contrastive Pretraining for Semantic Segmentation [16.082155440640964]
CP2(Copy-Paste Contrastive Pretraining)と呼ばれる画素単位のコントラスト学習手法を提案する。
詳細は、画像(前景)から異なる背景画像にランダムな作物をコピー・ペーストし、意味的セグメンテーションモデルを事前訓練する。
実験では、下流セマンティックセグメンテーションにおけるCP2の強い性能を示す。
論文 参考訳(メタデータ) (2022-03-22T13:21:49Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。