論文の概要: Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning
- arxiv url: http://arxiv.org/abs/2301.11915v2
- Date: Tue, 23 Jan 2024 04:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 20:08:35.727777
- Title: Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning
- Title(参考訳): パートアウェア表現学習による自己指導型事前学習の理解
- Authors: Jie Zhu, Jiyang Qi, Mingyu Ding, Xiaokang Chen, Ping Luo, Xinggang
Wang, Wenyu Liu, Leye Wang, Jingdong Wang
- Abstract要約: 本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 88.45460880824376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we are interested in understanding self-supervised pretraining
through studying the capability that self-supervised representation pretraining
methods learn part-aware representations. The study is mainly motivated by that
random views, used in contrastive learning, and random masked (visible)
patches, used in masked image modeling, are often about object parts.
We explain that contrastive learning is a part-to-whole task: the projection
layer hallucinates the whole object representation from the object part
representation learned from the encoder, and that masked image modeling is a
part-to-part task: the masked patches of the object are hallucinated from the
visible patches. The explanation suggests that the self-supervised pretrained
encoder is required to understand the object part. We empirically compare the
off-the-shelf encoders pretrained with several representative methods on
object-level recognition and part-level recognition. The results show that the
fully-supervised model outperforms self-supervised models for object-level
recognition, and most self-supervised contrastive learning and masked image
modeling methods outperform the fully-supervised method for part-level
recognition. It is observed that the combination of contrastive learning and
masked image modeling further improves the performance.
- Abstract(参考訳): 本稿では,自己指導型事前学習手法がパート認識型表現を学習する能力を研究することによって,自己指導型事前学習の理解に関心がある。
この研究の主な動機は、対照的な学習で使用されるランダムなビューと、マスキング画像モデリングで使用されるランダムなマスク(可視性)パッチが、しばしばオブジェクト部分に関するものである点にある。
プロジェクション層は、エンコーダから学習したオブジェクト部分表現からオブジェクト全体の表現を幻覚し、マスクされた画像モデリングは部分的なタスクであり、オブジェクトのマスクされたパッチは可視的なパッチから幻覚される。
この説明は、オブジェクト部分を理解するには、自己教師付き事前学習エンコーダが必要であることを示唆する。
我々は,既訓練の市販エンコーダと,オブジェクトレベルの認識と部分レベルの認識に関するいくつかの代表的な手法を実証的に比較した。
その結果,全教師付きモデルは,オブジェクト指向認識のための自己教師付きモデルよりも優れており,ほとんどの自己教師付きコントラスト学習およびマスク付き画像モデリング手法は,全教師付き部分レベル認識法よりも優れていることがわかった。
コントラスト学習とマスキング画像モデリングの組み合わせにより,さらなる性能向上が期待できる。
関連論文リスト
- Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文 参考訳(メタデータ) (2023-11-08T16:59:26Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments [48.67345147676275]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。
我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-16T10:33:13Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。