論文の概要: Hierarchical Textual Knowledge for Enhanced Image Clustering
- arxiv url: http://arxiv.org/abs/2604.11144v1
- Date: Mon, 13 Apr 2026 08:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.415815
- Title: Hierarchical Textual Knowledge for Enhanced Image Clustering
- Title(参考訳): 画像クラスタリングのための階層的テクスチャ知識
- Authors: Yijie Zhong, Yunfan Gao, Weipeng Jiang, Haofen Wang,
- Abstract要約: 本稿では,階層的な概念-属性構造的知識を構成する知識強化クラスタリング(KEC)手法を提案する。
トレーニングなしのKECは、20データセット中14でゼロショットCLIPを上回っている。
- 参考スコア(独自算出の注目度): 12.960683115404604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image clustering aims to group images in an unsupervised fashion. Traditional methods focus on knowledge from visual space, making it difficult to distinguish between visually similar but semantically different classes. Recent advances in vision-language models enable the use of textual knowledge to enhance image clustering. However, most existing methods rely on coarse class labels or simple nouns, overlooking the rich conceptual and attribute-level semantics embedded in textual space. In this paper, we propose a knowledge-enhanced clustering (KEC) method that constructs a hierarchical concept-attribute structured knowledge with the help of large language models (LLMs) to guide clustering. Specifically, we first condense redundant textual labels into abstract concepts and then automatically extract discriminative attributes for each single concept and similar concept pairs, via structured prompts to LLMs. This knowledge is instantiated for each input image to achieve the knowledge-enhanced features. The knowledge-enhanced features with original visual features are adapted to various downstream clustering algorithms. We evaluate KEC on 20 diverse datasets, showing consistent improvements across existing methods using additional textual knowledge. KEC without training outperforms zero-shot CLIP on 14 out of 20 datasets. Furthermore, the naive use of textual knowledge may harm clustering performance, while KEC provides both accuracy and robustness.
- Abstract(参考訳): イメージクラスタリングは、教師なしの方法でイメージをグループ化する。
伝統的な手法は視覚空間からの知識に焦点を当てており、視覚的に類似しているが意味的に異なるクラスを区別することは困難である。
視覚言語モデルの最近の進歩は、画像クラスタリングを強化するためにテキスト知識を利用することを可能にしている。
しかし、既存のほとんどのメソッドは粗いクラスラベルや単純な名詞に依存しており、テキスト空間に埋め込まれたリッチな概念と属性レベルのセマンティクスを見下ろしている。
本稿では,大規模言語モデル(LLM)の助けを借りて階層的概念属性構造知識を構築する,知識強化クラスタリング(KEC)手法を提案する。
具体的には、まず冗長テキストラベルを抽象概念に凝縮し、構造化プロンプトを介して各概念と類似概念ペアの識別属性を自動的に抽出する。
この知識は、各入力画像に対してインスタンス化され、知識に富んだ特徴を達成する。
独自の視覚的特徴を持つ知識強化機能は、さまざまなダウンストリームクラスタリングアルゴリズムに適応する。
我々はKECを20種類の多様なデータセット上で評価し、テキスト知識を付加することで既存の手法間で一貫した改善を示す。
トレーニングなしのKECは、20データセット中14でゼロショットCLIPを上回っている。
さらに、テキスト知識の単純な使用はクラスタリング性能を損なう可能性があるが、KECは精度と堅牢性の両方を提供する。
関連論文リスト
- Hierarchical Semantic Alignment for Image Clustering [59.277605709780524]
CAEと呼ばれる画像クラスタリングのためのhierarChical semAnticalignedmEnt法を提案する。
まず、WordNetから関連する名詞とキャプションデータセットから記述を選択し、画像特徴に整合した意味空間を構築する。
次に,画像特徴と選択した名詞とキャプションとを最適な輸送手段で一致させて,より識別的な意味空間を得る。
論文 参考訳(メタデータ) (2025-11-30T14:14:51Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Interpreting and Analysing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。
この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-16T20:18:21Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。