論文の概要: HIRL: A General Framework for Hierarchical Image Representation Learning
- arxiv url: http://arxiv.org/abs/2205.13159v1
- Date: Thu, 26 May 2022 05:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:45:34.766715
- Title: HIRL: A General Framework for Hierarchical Image Representation Learning
- Title(参考訳): hirl:階層的画像表現学習のための汎用フレームワーク
- Authors: Minghao Xu, Yuanfan Guo, Xuanyu Zhu, Jiawen Li, Zhenbang Sun, Jian
Tang, Yi Xu, Bingbing Ni
- Abstract要約: 階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
- 参考スコア(独自算出の注目度): 54.12773508883117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning self-supervised image representations has been broadly studied to
boost various visual understanding tasks. Existing methods typically learn a
single level of image semantics like pairwise semantic similarity or image
clustering patterns. However, these methods can hardly capture multiple levels
of semantic information that naturally exists in an image dataset, e.g., the
semantic hierarchy of "Persian cat to cat to mammal" encoded in an image
database for species. It is thus unknown whether an arbitrary image
self-supervised learning (SSL) approach can benefit from learning such
hierarchical semantics. To answer this question, we propose a general framework
for Hierarchical Image Representation Learning (HIRL). This framework aims to
learn multiple semantic representations for each image, and these
representations are structured to encode image semantics from fine-grained to
coarse-grained. Based on a probabilistic factorization, HIRL learns the most
fine-grained semantics by an off-the-shelf image SSL approach and learns
multiple coarse-grained semantics by a novel semantic path discrimination
scheme. We adopt six representative image SSL methods as baselines and study
how they perform under HIRL. By rigorous fair comparison, performance gain is
observed on all the six methods for diverse downstream tasks, which, for the
first time, verifies the general effectiveness of learning hierarchical image
semantics. All source code and model weights are available at
https://github.com/hirl-team/HIRL
- Abstract(参考訳): 自己教師付き画像表現の学習は、様々な視覚理解タスクを促進するために広く研究されてきた。
既存の手法は通常、ペアワイズセマンティクスの類似性やイメージクラスタリングパターンのような単一のレベルのイメージセマンティクスを学習する。
しかし、これらの手法では、画像データセットに自然に存在する複数の意味情報のレベル、例えば、種の画像データベースにエンコードされた"persian cat to cat to mammal"の意味階層を捉えることがほとんどできない。
したがって、任意の画像自己教師付き学習(ssl)アプローチがそのような階層的意味論の学習の恩恵を受けるかどうかは不明である。
本稿では,階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
6つのイメージSSL手法をベースラインとして採用し,HIRL下での動作について検討する。
厳密な公正比較により、下流タスクの6つの方法すべてにおいて性能向上が観察され、初めて階層的な画像意味論を学習する一般的な効果が検証される。
すべてのソースコードとモデルウェイトはhttps://github.com/hirl-team/HIRLで入手できる。
関連論文リスト
- Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Semantic Cross Attention for Few-shot Learning [9.529264466445236]
本稿では,ラベルテキストのセマンティックな特徴を補助的タスクとして見るためのマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
論文 参考訳(メタデータ) (2022-10-12T15:24:59Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - HCSC: Hierarchical Contrastive Selective Coding [44.655310210531226]
Hierarchical Contrastive Selective Coding (HCSC)は、新しいコントラスト学習フレームワークである。
画像表現をセマンティック構造に適合させるための精巧なペア選択方式を提案する。
我々は,最先端のコントラスト法よりもHCSCの優れた性能を検証した。
論文 参考訳(メタデータ) (2022-02-01T15:04:40Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - Semantic decoupled representation learning for remote sensing image
change detection [17.548248093344576]
RS画像CDのセマンティックデカップリング表現学習を提案する。
我々は、セマンティックマスクを利用して、異なるセマンティック領域の表現をアンタングルする。
さらに、下流CDタスクにおける関心対象の認識に役立ち、異なる意味表現を区別するようモデルに強制する。
論文 参考訳(メタデータ) (2022-01-15T07:35:26Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。