論文の概要: HCSC: Hierarchical Contrastive Selective Coding
- arxiv url: http://arxiv.org/abs/2202.00455v1
- Date: Tue, 1 Feb 2022 15:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:41:53.322876
- Title: HCSC: Hierarchical Contrastive Selective Coding
- Title(参考訳): HCSC:階層的コントラスト選択符号化
- Authors: Yuanfan Guo, Minghao Xu, Jiawen Li, Bingbing Ni, Xuanyu Zhu, Zhenbang
Sun, Yi Xu
- Abstract要約: Hierarchical Contrastive Selective Coding (HCSC)は、新しいコントラスト学習フレームワークである。
画像表現をセマンティック構造に適合させるための精巧なペア選択方式を提案する。
我々は,最先端のコントラスト法よりもHCSCの優れた性能を検証した。
- 参考スコア(独自算出の注目度): 44.655310210531226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical semantic structures naturally exist in an image dataset, in
which several semantically relevant image clusters can be further integrated
into a larger cluster with coarser-grained semantics. Capturing such structures
with image representations can greatly benefit the semantic understanding on
various downstream tasks. Existing contrastive representation learning methods
lack such an important model capability. In addition, the negative pairs used
in these methods are not guaranteed to be semantically distinct, which could
further hamper the structural correctness of learned image representations. To
tackle these limitations, we propose a novel contrastive learning framework
called Hierarchical Contrastive Selective Coding (HCSC). In this framework, a
set of hierarchical prototypes are constructed and also dynamically updated to
represent the hierarchical semantic structures underlying the data in the
latent space. To make image representations better fit such semantic
structures, we employ and further improve conventional instance-wise and
prototypical contrastive learning via an elaborate pair selection scheme. This
scheme seeks to select more diverse positive pairs with similar semantics and
more precise negative pairs with truly distinct semantics. On extensive
downstream tasks, we verify the superior performance of HCSC over
state-of-the-art contrastive methods, and the effectiveness of major model
components is proved by plentiful analytical studies. Our source code and model
weights are available at https://github.com/gyfastas/HCSC
- Abstract(参考訳): 階層的セマンティック構造は自然にイメージデータセットに存在し、いくつかのセマンティックなイメージクラスタを、粗いセマンティックスを持つより大きなクラスタに統合することができる。
このような構造を画像表現でキャプチャすることは、様々な下流タスクのセマンティック理解に大きな恩恵をもたらす。
既存のコントラスト表現学習手法には、そのような重要なモデル能力がない。
さらに、これらの手法で用いられる負対は意味的に区別されることが保証されないため、学習された画像表現の構造的正しさをさらに阻害する可能性がある。
これらの制約に対処するために,階層的コントラスト選択符号化 (HCSC) と呼ばれる新しいコントラスト学習フレームワークを提案する。
このフレームワークでは、一連の階層型プロトタイプが構築され、動的に更新され、潜在空間におけるデータの基盤となる階層型セマンティック構造を表現する。
画像表現をそのような意味構造に合致させるため、より精巧なペア選択スキームを通じて、従来のインスタンスワイズおよびプロトタイプ的コントラスト学習を取り入れ、さらに改善する。
このスキームは、類似のセマンティクスを持つより多様な正のペアと、真に異なるセマンティクスを持つより正確な負のペアを選択することを目指している。
大規模ダウンストリームタスクでは,最先端のコントラスト法に比べてHCSCの優れた性能が検証され,多くの解析研究により主要モデル成分の有効性が証明された。
ソースコードとモデルの重み付けはhttps://github.com/gyfastas/HCSCで確認できる。
関連論文リスト
- Learning Visual Hierarchies with Hyperbolic Embeddings [28.35250955426006]
本稿では,ハイパーボリック空間におけるユーザ定義のマルチレベル視覚階層を,明示的な階層ラベルを必要とせずに符号化できる学習パラダイムを提案する。
階層的検索タスクの大幅な改善を示し、視覚的階層を捉える上でのモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-11-26T14:58:06Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Dense Semantic Contrast for Self-Supervised Visual Representation
Learning [12.636783522731392]
意味圏決定境界を密度の高いレベルでモデル化するためのDense Semantic Contrast(DSC)を提案する。
本稿では,多粒度表現学習のためのクロスイメージ・セマンティック・コントラッシブ・ラーニング・フレームワークを提案する。
実験結果から,DSCモデルは下流の高密度予測タスクに転送する場合に,最先端の手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:04:05Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。