論文の概要: Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning
- arxiv url: http://arxiv.org/abs/2301.11915v2
- Date: Tue, 23 Jan 2024 04:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 20:08:35.727777
- Title: Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning
- Title(参考訳): パートアウェア表現学習による自己指導型事前学習の理解
- Authors: Jie Zhu, Jiyang Qi, Mingyu Ding, Xiaokang Chen, Ping Luo, Xinggang
Wang, Wenyu Liu, Leye Wang, Jingdong Wang
- Abstract要約: 本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 88.45460880824376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we are interested in understanding self-supervised pretraining
through studying the capability that self-supervised representation pretraining
methods learn part-aware representations. The study is mainly motivated by that
random views, used in contrastive learning, and random masked (visible)
patches, used in masked image modeling, are often about object parts.
We explain that contrastive learning is a part-to-whole task: the projection
layer hallucinates the whole object representation from the object part
representation learned from the encoder, and that masked image modeling is a
part-to-part task: the masked patches of the object are hallucinated from the
visible patches. The explanation suggests that the self-supervised pretrained
encoder is required to understand the object part. We empirically compare the
off-the-shelf encoders pretrained with several representative methods on
object-level recognition and part-level recognition. The results show that the
fully-supervised model outperforms self-supervised models for object-level
recognition, and most self-supervised contrastive learning and masked image
modeling methods outperform the fully-supervised method for part-level
recognition. It is observed that the combination of contrastive learning and
masked image modeling further improves the performance.
- Abstract(参考訳): 本稿では,自己指導型事前学習手法がパート認識型表現を学習する能力を研究することによって,自己指導型事前学習の理解に関心がある。
この研究の主な動機は、対照的な学習で使用されるランダムなビューと、マスキング画像モデリングで使用されるランダムなマスク(可視性)パッチが、しばしばオブジェクト部分に関するものである点にある。
プロジェクション層は、エンコーダから学習したオブジェクト部分表現からオブジェクト全体の表現を幻覚し、マスクされた画像モデリングは部分的なタスクであり、オブジェクトのマスクされたパッチは可視的なパッチから幻覚される。
この説明は、オブジェクト部分を理解するには、自己教師付き事前学習エンコーダが必要であることを示唆する。
我々は,既訓練の市販エンコーダと,オブジェクトレベルの認識と部分レベルの認識に関するいくつかの代表的な手法を実証的に比較した。
その結果,全教師付きモデルは,オブジェクト指向認識のための自己教師付きモデルよりも優れており,ほとんどの自己教師付きコントラスト学習およびマスク付き画像モデリング手法は,全教師付き部分レベル認識法よりも優れていることがわかった。
コントラスト学習とマスキング画像モデリングの組み合わせにより,さらなる性能向上が期待できる。
関連論文リスト
- Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文 参考訳(メタデータ) (2024-11-13T16:42:07Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - A Unified Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability [10.79834380458689]
自己指導型学習は、特にビジョンにおいて、重要なプライバシー上の懸念に直面している。
本稿では、PartCropと呼ばれる統一メンバーシップ推論手法を提案する。
我々は、異なるトレーニングプロトコルと構造を持つ自己教師型モデルに対して、広範囲にわたる攻撃を行う。
PartCropに対抗するために、早期停止と差分プライバシーという2つの一般的なアプローチを評価し、作物の規模を縮小する手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T05:04:55Z) - Self-Supervised Learning for Visual Relationship Detection through
Masked Bounding Box Reconstruction [6.798515070856465]
表現学習のための新しい自己教師型アプローチ,特に視覚的関係検出(VRD)の課題について述べる。
Masked Image Modeling (MIM) の有効性を活かして, Masked bounding Box Reconstruction (MBBR) を提案する。
論文 参考訳(メタデータ) (2023-11-08T16:59:26Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。
我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-16T10:33:13Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。