論文の概要: HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding
- arxiv url: http://arxiv.org/abs/2311.14064v2
- Date: Thu, 14 Mar 2024 13:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:12:48.803925
- Title: HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding
- Title(参考訳): HGCLIP:階層的理解のためのグラフ表現を用いた視覚言語モデルの探索
- Authors: Peng Xia, Xingtong Yu, Ming Hu, Lie Ju, Zhiyong Wang, Peibo Duan, Zongyuan Ge,
- Abstract要約: 異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。
ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。
本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.95003393925676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object categories are typically organized into a multi-granularity taxonomic hierarchy. When classifying categories at different hierarchy levels, traditional uni-modal approaches focus primarily on image features, revealing limitations in complex scenarios. Recent studies integrating Vision-Language Models (VLMs) with class hierarchies have shown promise, yet they fall short of fully exploiting the hierarchical relationships. These efforts are constrained by their inability to perform effectively across varied granularity of categories. To tackle this issue, we propose a novel framework (HGCLIP) that effectively combines CLIP with a deeper exploitation of the Hierarchical class structure via Graph representation learning. We explore constructing the class hierarchy into a graph, with its nodes representing the textual or image features of each category. After passing through a graph encoder, the textual features incorporate hierarchical structure information, while the image features emphasize class-aware features derived from prototypes through the attention mechanism. Our approach demonstrates significant improvements on 11 diverse visual recognition benchmarks. Our codes are fully available at https://github.com/richard-peng-xia/HGCLIP.
- Abstract(参考訳): 対象分類は、典型的には多粒性分類階層に分類される。
異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。
ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。
これらの取り組みは、様々なカテゴリの粒度で効果的に実行できないことによる制約を受けている。
本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワーク(HGCLIP)を提案する。
クラス階層をグラフに構築し、そのノードは各カテゴリのテキストや画像の特徴を表す。
グラフエンコーダを通した後、テキスト機能には階層構造情報が含まれ、画像機能は、注意機構を通じてプロトタイプから派生したクラス認識機能を強調する。
提案手法は,11種類の視覚認識ベンチマークにおいて有意な改善が見られた。
私たちのコードはhttps://github.com/richard-peng-xia/HGCLIPで完全に利用可能です。
関連論文リスト
- UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - ChatGPT-Powered Hierarchical Comparisons for Image Classification [12.126353699873281]
大規模言語モデル(LLM)に基づく画像分類のための新しいフレームワークを提案する。
クラスを階層に分類し、階層レベルで画像テキストの埋め込みを比較して分類し、直感的で効果的で説明可能なアプローチをもたらす。
論文 参考訳(メタデータ) (2023-11-01T00:26:40Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - HOSE-Net: Higher Order Structure Embedded Network for Scene Graph
Generation [20.148175528691905]
本稿では,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。
また,高次構造情報を導入して部分空間の数を減らし,階層的セマンティックアグリゲーション(HSA)モジュールを提案する。
提案したHOSE-Netは、Visual GenomeとVRDの2つの人気のあるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-08-12T07:58:13Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Learn Class Hierarchy using Convolutional Neural Networks [0.9569316316728905]
画像の階層的分類のための新しいアーキテクチャを提案し、クロスエントロピー損失関数と中心損失を組み合わせた深層線形層を導入する。
階層型分類器は,コンピュータビジョンタスクへの応用を見出す従来の分類手法の利点を示す。
論文 参考訳(メタデータ) (2020-05-18T12:06:43Z) - Group Based Deep Shared Feature Learning for Fine-grained Image
Classification [31.84610555517329]
共有された特徴を明示的にモデル化し、その効果を除去し、拡張された分類結果を得るための新しいディープネットワークアーキテクチャを提案する。
我々はこのフレームワークをグループベースのDeep Shared Feature Learning (GSFL)と呼び、学習したネットワークをGSFL-Netと呼ぶ。
特殊オートエンコーダの重要な利点は、多用途であり、最先端のきめ細かい特徴抽出モデルと組み合わせて、それらと一緒にトレーニングすることで、パフォーマンスを直接改善できる点である。
論文 参考訳(メタデータ) (2020-04-04T00:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。