論文の概要: Self-Supervised Learning Disentangled Group Representation as Feature
- arxiv url: http://arxiv.org/abs/2110.15255v2
- Date: Fri, 29 Oct 2021 11:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 11:46:32.518703
- Title: Self-Supervised Learning Disentangled Group Representation as Feature
- Title(参考訳): グループ表現を特徴とする自己教師付き学習
- Authors: Tan Wang, Zhongqi Yue, Jianqiang Huang, Qianru Sun, Hanwang Zhang
- Abstract要約: 既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
- 参考スコア(独自算出の注目度): 82.07737719232972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A good visual representation is an inference map from observations (images)
to features (vectors) that faithfully reflects the hidden modularized
generative factors (semantics). In this paper, we formulate the notion of
"good" representation from a group-theoretic view using Higgins' definition of
disentangled representation, and show that existing Self-Supervised Learning
(SSL) only disentangles simple augmentation features such as rotation and
colorization, thus unable to modularize the remaining semantics. To break the
limitation, we propose an iterative SSL algorithm: Iterative Partition-based
Invariant Risk Minimization (IP-IRM), which successfully grounds the abstract
semantics and the group acting on them into concrete contrastive learning. At
each iteration, IP-IRM first partitions the training samples into two subsets
that correspond to an entangled group element. Then, it minimizes a
subset-invariant contrastive loss, where the invariance guarantees to
disentangle the group element. We prove that IP-IRM converges to a fully
disentangled representation and show its effectiveness on various benchmarks.
Codes are available at https://github.com/Wangt-CN/IP-IRM.
- Abstract(参考訳): よい視覚的表現は観察(画像)から特徴(ベクトル)への推論写像であり、隠れたモジュラー化生成因子(理論)を忠実に反映する。
本稿では,Higinsの非交叉表現の定義を用いてグループ理論的な視点から「良い」表現の概念を定式化し,既存の自己監督学習(SSL)が回転や色化などの単純な拡張特徴のみを解き、残りの意味論をモジュール化することができないことを示す。
そこで本研究では,抽象的意味論とそれらに作用する群を具体的コントラスト学習にうまく基礎づける反復的分割型不変リスク最小化 (ip-irm) という反復的sslアルゴリズムを提案する。
各イテレーションにおいて、IP-IRMはまずトレーニングサンプルを、絡み合ったグループ要素に対応する2つのサブセットに分割する。
そして、群要素をアンタングル化することが保証される部分集合不変のコントラスト損失を最小化する。
我々は、IP-IRMが完全に不整合表現に収束していることを示し、その効果を様々なベンチマークで示す。
コードはhttps://github.com/Wangt-CN/IP-IRMで入手できる。
関連論文リスト
- Grouped Discrete Representation for Object-Centric Learning [18.44580501357929]
我々は,オブジェクト指向学習のためのtextitGroup Discrete Representation (GDR) を提案する。
GDRは、組織化されたチャネルグルーピングを通じて特徴を属性に分解し、これらの属性をインデックスを介して個別の表現に構成する。
論文 参考訳(メタデータ) (2024-11-04T17:25:10Z) - Deep Contrastive Multi-view Clustering under Semantic Feature Guidance [8.055452424643562]
本稿では,Semantic Feature Guide (DCMCS) の下で,Deep Contrastive Multi-view Clustering というマルチビュークラスタリングフレームワークを提案する。
意味的類似性によって重み付けされたインスタンスレベルのコントラスト損失を最小化することにより、DCMCSは偽陰対間のコントラストの傾きを適応的に弱める。
いくつかの公開データセットの実験結果は、提案したフレームワークが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2024-03-09T02:33:38Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Semantic-aware Contrastive Learning for More Accurate Semantic Parsing [32.74456368167872]
そこで本研究では,意味表現の微粒化を学習できる意味認識型コントラスト学習アルゴリズムを提案する。
2つの標準データセットの実験により、我々の手法はMLEベースラインよりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2023-01-19T07:04:32Z) - Unsupervised Visual Representation Learning by Synchronous Momentum
Grouping [47.48803765951601]
ImageNet上のグループレベルのコントラスト型視覚表現学習法は,バニラ教師あり学習を超越している。
我々は、SMoGが現在のSOTA教師なし表現学習法を超越したことを示すために、徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-07-13T13:04:15Z) - Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。
基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。
提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文 参考訳(メタデータ) (2021-06-01T02:17:36Z) - Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization [80.55951673479237]
本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-11-11T11:13:07Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。