Fugu-MT 論文翻訳(概要): HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding

論文の概要: HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding

arxiv url: http://arxiv.org/abs/2311.14064v2
Date: Thu, 14 Mar 2024 13:03:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 02:12:48.803925
Title: HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding
Title（参考訳）: HGCLIP:階層的理解のためのグラフ表現を用いた視覚言語モデルの探索
Authors: Peng Xia, Xingtong Yu, Ming Hu, Lie Ju, Zhiyong Wang, Peibo Duan, Zongyuan Ge,
Abstract要約: 異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 18.95003393925676
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Object categories are typically organized into a multi-granularity taxonomic hierarchy. When classifying categories at different hierarchy levels, traditional uni-modal approaches focus primarily on image features, revealing limitations in complex scenarios. Recent studies integrating Vision-Language Models (VLMs) with class hierarchies have shown promise, yet they fall short of fully exploiting the hierarchical relationships. These efforts are constrained by their inability to perform effectively across varied granularity of categories. To tackle this issue, we propose a novel framework (HGCLIP) that effectively combines CLIP with a deeper exploitation of the Hierarchical class structure via Graph representation learning. We explore constructing the class hierarchy into a graph, with its nodes representing the textual or image features of each category. After passing through a graph encoder, the textual features incorporate hierarchical structure information, while the image features emphasize class-aware features derived from prototypes through the attention mechanism. Our approach demonstrates significant improvements on 11 diverse visual recognition benchmarks. Our codes are fully available at https://github.com/richard-peng-xia/HGCLIP.
Abstract（参考訳）: 対象分類は、典型的には多粒性分類階層に分類される。異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。これらの取り組みは、様々なカテゴリの粒度で効果的に実行できないことによる制約を受けている。本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワーク(HGCLIP)を提案する。クラス階層をグラフに構築し、そのノードは各カテゴリのテキストや画像の特徴を表す。グラフエンコーダを通した後、テキスト機能には階層構造情報が含まれ、画像機能は、注意機構を通じてプロトタイプから派生したクラス認識機能を強調する。提案手法は,11種類の視覚認識ベンチマークにおいて有意な改善が見られた。私たちのコードはhttps://github.com/richard-peng-xia/HGCLIPで完全に利用可能です。

関連論文リスト

Hierarchical Semantic Tree Anchoring for CLIP-Based Class-Incremental Learning [11.82771798674077]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、モデルが過去の知識を保ちながら、新しいクラスを継続的に学習することを可能にする。しかし、現実世界の視覚的および言語的概念は本質的に階層的である。本稿では,CILに階層的な情報を固定し,破滅的な忘れを抑えるHASTENを提案する。
論文参考訳（メタデータ） (2025-11-19T17:14:47Z)
Hierarchical Representation Matching for CLIP-based Class-Incremental Learning [80.2317078787969]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、進化するデータストリームに継続的に適応可能なモデルを提供することを目的とする。事前訓練された視覚言語モデル(例えばCLIP)の最近の進歩は、このタスクの強力な基盤を提供する。本稿では,CLIPベースのCILのためのHiErarchical Representation MAtchiNg(HERMAN)を紹介する。
論文参考訳（メタデータ） (2025-09-26T17:59:51Z)
Learning Visual Hierarchies with Hyperbolic Embeddings [28.35250955426006]
本稿では,ハイパーボリック空間におけるユーザ定義のマルチレベル視覚階層を,明示的な階層ラベルを必要とせずに符号化できる学習パラダイムを提案する。階層的検索タスクの大幅な改善を示し、視覚的階層を捉える上でのモデルの有効性を示す。
論文参考訳（メタデータ） (2024-11-26T14:58:06Z)
Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping [33.405667735101595]
我々は、事前訓練されたディープニューラルネットワーク(DNN)の構造的理解を高めるための視覚階層型マッパー(Hi-Mapper)を提案する。 Hi-Mapperは,1)確率密度のカプセル化による階層木の事前定義,2)新しい階層的コントラスト損失を伴う双曲空間における階層関係の学習により,視覚シーンの階層構造を解明する。
論文参考訳（メタデータ） (2024-04-01T07:45:42Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
ChatGPT-Powered Hierarchical Comparisons for Image Classification [12.126353699873281]
大規模言語モデル(LLM)に基づく画像分類のための新しいフレームワークを提案する。クラスを階層に分類し、階層レベルで画像テキストの埋め込みを比較して分類し、直感的で効果的で説明可能なアプローチをもたらす。
論文参考訳（メタデータ） (2023-11-01T00:26:40Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)
Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。 HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文参考訳（メタデータ） (2022-03-27T15:47:44Z)
Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文参考訳（メタデータ） (2020-09-12T17:36:53Z)
Group Based Deep Shared Feature Learning for Fine-grained Image Classification [31.84610555517329]
共有された特徴を明示的にモデル化し、その効果を除去し、拡張された分類結果を得るための新しいディープネットワークアーキテクチャを提案する。我々はこのフレームワークをグループベースのDeep Shared Feature Learning (GSFL)と呼び、学習したネットワークをGSFL-Netと呼ぶ。特殊オートエンコーダの重要な利点は、多用途であり、最先端のきめ細かい特徴抽出モデルと組み合わせて、それらと一緒にトレーニングすることで、パフォーマンスを直接改善できる点である。
論文参考訳（メタデータ） (2020-04-04T00:01:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。