論文の概要: Hierarchical Semantic Alignment for Image Clustering
- arxiv url: http://arxiv.org/abs/2512.00904v1
- Date: Sun, 30 Nov 2025 14:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.489673
- Title: Hierarchical Semantic Alignment for Image Clustering
- Title(参考訳): 画像クラスタリングのための階層的セマンティックアライメント
- Authors: Xingyu Zhu, Beier Zhu, Yunfan Li, Junfeng Fang, Shuo Wang, Kesen Zhao, Hanwang Zhang,
- Abstract要約: CAEと呼ばれる画像クラスタリングのためのhierarChical semAnticalignedmEnt法を提案する。
まず、WordNetから関連する名詞とキャプションデータセットから記述を選択し、画像特徴に整合した意味空間を構築する。
次に,画像特徴と選択した名詞とキャプションとを最適な輸送手段で一致させて,より識別的な意味空間を得る。
- 参考スコア(独自算出の注目度): 59.277605709780524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image clustering is a classic problem in computer vision, which categorizes images into different groups. Recent studies utilize nouns as external semantic knowledge to improve clus- tering performance. However, these methods often overlook the inherent ambiguity of nouns, which can distort semantic representations and degrade clustering quality. To address this issue, we propose a hierarChical semAntic alignmEnt method for image clustering, dubbed CAE, which improves cluster- ing performance in a training-free manner. In our approach, we incorporate two complementary types of textual seman- tics: caption-level descriptions, which convey fine-grained attributes of image content, and noun-level concepts, which represent high-level object categories. We first select relevant nouns from WordNet and descriptions from caption datasets to construct a semantic space aligned with image features. Then, we align image features with selected nouns and captions via optimal transport to obtain a more discriminative semantic space. Finally, we combine the enhanced semantic and image features to perform clustering. Extensive experiments across 8 datasets demonstrate the effectiveness of our method, notably surpassing the state-of-the-art training-free approach with a 4.2% improvement in accuracy and a 2.9% improvement in adjusted rand index (ARI) on the ImageNet-1K dataset.
- Abstract(参考訳): イメージクラスタリングは、イメージを異なるグループに分類するコンピュータビジョンにおける古典的な問題である。
近年の研究では、名詞を外部意味知識として利用して、clus-teringパフォーマンスを改善している。
しかし、これらの手法は、意味表現を歪め、クラスタリングの質を低下させることができる名詞の本質的な曖昧さをしばしば見落としている。
そこで我々は,CAEと呼ばれる画像クラスタリングのためのhierarChical semAnticalignedmEnt法を提案する。
提案手法では,画像内容の微粒な属性を伝達するキャプションレベルの記述と,高レベルのオブジェクトカテゴリを表す名詞レベルの概念の2つの補完型を組み込んだ。
まず、WordNetから関連する名詞とキャプションデータセットから記述を選択し、画像特徴に整合した意味空間を構築する。
次に,画像特徴と選択した名詞とキャプションとを最適な輸送手段で一致させて,より識別的な意味空間を得る。
最後に、強化されたセマンティック機能とイメージ機能を組み合わせてクラスタリングを行う。
8つのデータセットにわたる大規模な実験により、ImageNet-1Kデータセット上の4.2%の精度向上と2.9%の調整済みランドインデックス(ARI)の改善により、最先端のトレーニング不要アプローチをはるかに上回る結果が得られた。
関連論文リスト
- AdaptaGen: Domain-Specific Image Generation through Hierarchical Semantic Optimization Framework [0.0]
ドメイン固有の画像生成は、専門分野のための高品質なビジュアルコンテンツを作成することを目的としている。
現在のアプローチでは、専門領域における意味的理解と視覚的表現の固有の依存性を見落としている。
本稿では,行列ベースのプロンプト最適化とマルチパースペクティブ理解を統合した階層型セマンティック最適化フレームワークAdaptaGenを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:04:08Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。
提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Dual-Level Cross-Modal Contrastive Clustering [4.083185193413678]
我々はDXMC(Dual-level Cross-Modal Contrastive Clustering)という画像クラスタリングフラムワークを提案する。
画像とテキストのペアを生成するために使用される意味空間を構築するために、外部テキスト情報が導入される。
予め訓練された画像とテキストエンコーダに画像とテキストのペアをそれぞれ送信し、4つのよく設計されたネットワークに次々に供給される画像とテキストの埋め込みを得る。
論文 参考訳(メタデータ) (2024-09-06T18:49:45Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Semantic-Enhanced Image Clustering [6.218389227248297]
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。
本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2022-08-21T09:04:21Z) - Attention-Guided Supervised Contrastive Learning for Semantic
Segmentation [16.729068267453897]
画素ごとの予測タスクでは、セグメンテーションのために1つのイメージに複数のラベルが存在する可能性がある。
本研究では,1つの意味的対象を目標として毎回強調する,注意誘導型教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:01:11Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。