論文の概要: GraphVL: Graph-Enhanced Semantic Modeling via Vision-Language Models for Generalized Class Discovery
- arxiv url: http://arxiv.org/abs/2411.02074v1
- Date: Mon, 04 Nov 2024 13:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:31.114678
- Title: GraphVL: Graph-Enhanced Semantic Modeling via Vision-Language Models for Generalized Class Discovery
- Title(参考訳): GraphVL: 一般化クラス発見のための視覚言語モデルによるグラフ強化セマンティックモデリング
- Authors: Bhupendra Solanki, Ashwin Nair, Mainak Singha, Souradeep Mukhopadhyay, Ankit Jha, Biplab Banerjee,
- Abstract要約: 一般化カテゴリー発見(GCD)における視覚言語モデリングの新しいアプローチであるGraphVLを紹介する。
グラフ畳み込みネットワーク(GCN)とCLIPのテキストエンコーダを統合し,クラス近傍構造を保存する。
ベンチマークデータセットの7つの実験は、CLIPバックボーンと統合した場合のGraphVLの優位性を一貫して示している。
- 参考スコア(独自算出の注目度): 11.006059998223908
- License:
- Abstract: Generalized Category Discovery (GCD) aims to cluster unlabeled images into known and novel categories using labeled images from known classes. To address the challenge of transferring features from known to unknown classes while mitigating model bias, we introduce GraphVL, a novel approach for vision-language modeling in GCD, leveraging CLIP. Our method integrates a graph convolutional network (GCN) with CLIP's text encoder to preserve class neighborhood structure. We also employ a lightweight visual projector for image data, ensuring discriminative features through margin-based contrastive losses for image-text mapping. This neighborhood preservation criterion effectively regulates the semantic space, making it less sensitive to known classes. Additionally, we learn textual prompts from known classes and align them to create a more contextually meaningful semantic feature space for the GCN layer using a contextual similarity loss. Finally, we represent unlabeled samples based on their semantic distance to class prompts from the GCN, enabling semi-supervised clustering for class discovery and minimizing errors. Our experiments on seven benchmark datasets consistently demonstrate the superiority of GraphVL when integrated with the CLIP backbone.
- Abstract(参考訳): Generalized Category Discovery (GCD)は、ラベル付きイメージを既知のクラスからラベル付きイメージを使用して、既知のカテゴリと新しいカテゴリにクラスタ化することを目的としている。
モデルバイアスを緩和しながら、既知のクラスから未知のクラスへ機能を移すという課題に対処するため、我々はCLIPを活用して、GCDにおける視覚言語モデリングの新しいアプローチであるGraphVLを紹介した。
グラフ畳み込みネットワーク(GCN)とCLIPのテキストエンコーダを統合し,クラス近傍構造を保存する。
また、画像データに軽量なビジュアルプロジェクタを採用し、画像テキストマッピングのマージンベースのコントラストロスによる識別的特徴を保証する。
この近傍保存基準は意味空間を効果的に制御し、既知のクラスに対する感受性を低下させる。
さらに、既知のクラスからテキストプロンプトを学習し、文脈的類似性損失を用いて、GCN層に対してよりコンテキスト的に意味のある特徴空間を作成するように調整する。
最後に,GCNからクラスプロンプトへのセマンティック距離に基づいてラベル付きサンプルを表現し,クラス発見とエラーの最小化のための半教師付きクラスタリングを可能にする。
ベンチマークデータセットの7つの実験は、CLIPバックボーンと統合した場合のGraphVLの優位性を一貫して示している。
関連論文リスト
- Deep Contrastive Graph Learning with Clustering-Oriented Guidance [61.103996105756394]
グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。
モデルはGCNを適用するために初期グラフを事前に推定する。
一般的なデータクラスタリングには,Deep Contrastive Graph Learning (DCGL)モデルが提案されている。
論文 参考訳(メタデータ) (2024-02-25T07:03:37Z) - Local Structure-aware Graph Contrastive Representation Learning [12.554113138406688]
複数のビューからノードの構造情報をモデル化するための局所構造対応グラフ比較表現学習法(LS-GCL)を提案する。
ローカルビューでは、各ターゲットノードのセマンティックサブグラフが共有GNNエンコーダに入力され、サブグラフレベルに埋め込まれたターゲットノードを取得する。
グローバルな視点では、元のグラフはノードの必要不可欠な意味情報を保存しているので、共有GNNエンコーダを利用して、グローバルなグラフレベルでターゲットノードの埋め込みを学習する。
論文 参考訳(メタデータ) (2023-08-07T03:23:46Z) - Learning Semi-supervised Gaussian Mixture Models for Generalized
Category Discovery [36.01459228175808]
本稿では,表現学習とクラス数推定を交互に行うEMライクなフレームワークを提案する。
汎用画像分類データセットと細粒度オブジェクト認識データセットの双方について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-05-10T13:47:38Z) - GLCC: A General Framework for Graph-level Clustering [5.069852282550117]
本稿では,グラフレベルのクラスタリングの問題について検討する。
GLCC(Graph-Level Contrastive Clustering)というグラフレベルの一般的なクラスタリングフレームワークを提案する。
様々なよく知られたデータセットに対する実験は、競合するベースラインよりも提案したGLCCの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T11:08:10Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Learning Hierarchical Graph Neural Networks for Image Clustering [81.5841862489509]
本稿では,画像の集合を未知の個数にクラスタリングする方法を学ぶ階層型グラフニューラルネットワーク(GNN)モデルを提案する。
我々の階層的なGNNは、階層の各レベルで予測される連結コンポーネントをマージして、次のレベルで新しいグラフを形成するために、新しいアプローチを用いています。
論文 参考訳(メタデータ) (2021-07-03T01:28:42Z) - Weakly-Supervised Image Semantic Segmentation Using Graph Convolutional
Networks [9.066817971329899]
画像レベルクラスラベルに基づく弱教師付き画像意味セグメンテーション
このタスクの一般的なアプローチは、ランダムウォーク機構を用いてクラス活性化マップ(CAM)のアクティベーションスコアを伝搬することである。
グラフ畳み込みネットワーク(GCN)に基づく特徴伝達フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-31T02:05:01Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Deep Active Learning for Joint Classification & Segmentation with Weak
Annotator [22.271760669551817]
クラスアクティベーションマップ(CAM)のようなCNNの可視化と解釈手法は、一般的に、クラス予測に関連する画像領域を強調するために使用される。
本稿では,画素レベルのアノテーションを段階的に統合する能動的学習フレームワークを提案する。
提案手法は, ランダムなサンプル選択を用いることで, 最先端のCAMやAL手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2020-10-10T03:25:54Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。