論文の概要: Partitioning Image Representation in Contrastive Learning
- arxiv url: http://arxiv.org/abs/2203.10454v1
- Date: Sun, 20 Mar 2022 04:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 14:28:16.175299
- Title: Partitioning Image Representation in Contrastive Learning
- Title(参考訳): コントラスト学習における画像表現の分割
- Authors: Hyunsub Lee and Heeyoul Choi
- Abstract要約: コントラスト学習において,アンカーの共通および特異な特徴と正のサンプルの両方を学習できる新しい表現,分割表現を導入する。
本稿では,VAEフレームワーク内の2種類の情報を分離し,従来のBYOLを線形分離性で上回り,下流タスクとして数ショットの学習タスクを実現できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrastive learning in the image domain, the anchor and positive samples
are forced to have as close representations as possible. However, forcing the
two samples to have the same representation could be misleading because the
data augmentation techniques make the two samples different. In this paper, we
introduce a new representation, partitioned representation, which can learn
both common and unique features of the anchor and positive samples in
contrastive learning. The partitioned representation consists of two parts: the
content part and the style part. The content part represents common features of
the class, and the style part represents the own features of each sample, which
can lead to the representation of the data augmentation method. We can achieve
the partitioned representation simply by decomposing a loss function of
contrastive learning into two terms on the two separate representations,
respectively. To evaluate our representation with two parts, we take two
framework models: Variational AutoEncoder (VAE) and BootstrapYour Own
Latent(BYOL) to show the separability of content and style, and to confirm the
generalization ability in classification, respectively. Based on the
experiments, we show that our approach can separate two types of information in
the VAE framework and outperforms the conventional BYOL in linear separability
and a few-shot learning task as downstream tasks.
- Abstract(参考訳): 画像領域における対照的な学習では、アンカーと正のサンプルは可能な限り近い表現を強制される。
しかし、データ拡張技術によって2つのサンプルが異なるため、2つのサンプルを同じ表現に強制することは誤解を招く可能性がある。
本稿では,コントラスト学習において,アンカーと正のサンプルの共通的特徴と独特な特徴の両方を学習できる,新たな表現分割表現を提案する。
分割表現は、コンテンツ部分とスタイル部分の2つの部分からなる。
内容部は、クラスの共通の特徴を表し、スタイル部は、各サンプルの独自の特徴を表し、データ拡張メソッドの表現につながる可能性がある。
この分割表現は、コントラスト学習の損失関数を2つの別々の表現の2つの項に分解するだけで実現できる。
この表現を2つの部分で評価するために、変分オートエンコーダ(VAE)とBootstrapYour Own Latent(BYOL)の2つのフレームワークモデルを用いて、コンテンツとスタイルの分離性を示し、それぞれに分類における一般化能力を確認する。
実験結果から,本手法はVAEフレームワーク内の2種類の情報を分離し,従来のBYOLを線形分離性で上回り,数ショットの学習タスクを下流タスクとして実現できることが示唆された。
関連論文リスト
- Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Disentangling Multi-view Representations Beyond Inductive Bias [32.15900989696017]
本稿では,表現の解釈可能性と一般化性を両立させる新しい多視点表現分離手法を提案する。
提案手法は,クラスタリングと分類性能において,12種類の比較手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T09:09:28Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Retriever: Learning Content-Style Representation as a Token-Level
Bipartite Graph [89.52990975155579]
Retrieverという名前の、教師なしのフレームワークは、そのような表現を学ぶために提案されている。
モーダルに依存しないため、提案したRetrieverは音声領域と画像領域の両方で評価される。
論文 参考訳(メタデータ) (2022-02-24T19:00:03Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Support-set bottlenecks for video-text representation learning [131.4161071785107]
ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。
本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
論文 参考訳(メタデータ) (2020-10-06T15:38:54Z) - Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文 参考訳(メタデータ) (2020-07-28T00:11:31Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。