論文の概要: Semantic-Enhanced Image Clustering
- arxiv url: http://arxiv.org/abs/2208.09849v2
- Date: Sun, 9 Apr 2023 02:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 23:34:56.144633
- Title: Semantic-Enhanced Image Clustering
- Title(参考訳): 意味強調画像クラスタリング
- Authors: Shaotian Cai, Liping Qiu, Xiaojun Chen, Qin Zhang, Longteng Chen
- Abstract要約: 本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。
本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
- 参考スコア(独自算出の注目度): 6.218389227248297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image clustering is an important and open-challenging task in computer
vision. Although many methods have been proposed to solve the image clustering
task, they only explore images and uncover clusters according to the image
features, thus being unable to distinguish visually similar but semantically
different images. In this paper, we propose to investigate the task of image
clustering with the help of a visual-language pre-training model. Different
from the zero-shot setting, in which the class names are known, we only know
the number of clusters in this setting. Therefore, how to map images to a
proper semantic space and how to cluster images from both image and semantic
spaces are two key problems. To solve the above problems, we propose a novel
image clustering method guided by the visual-language pre-training model CLIP,
named \textbf{Semantic-Enhanced Image Clustering (SIC)}. In this new method, we
propose a method to map the given images to a proper semantic space first and
efficient methods to generate pseudo-labels according to the relationships
between images and semantics. Finally, we propose performing clustering with
consistency learning in both image space and semantic space, in a
self-supervised learning fashion. The theoretical result of convergence
analysis shows that our proposed method can converge at a sublinear speed.
Theoretical analysis of expectation risk also shows that we can reduce the
expected risk by improving neighborhood consistency, increasing prediction
confidence, or reducing neighborhood imbalance. Experimental results on five
benchmark datasets clearly show the superiority of our new method.
- Abstract(参考訳): 画像クラスタリングはコンピュータビジョンにおいて重要かつオープンなタスクである。
画像クラスタリングタスクを解決するために多くの方法が提案されているが、画像の特徴に従って画像やクラスタを探索するのみであり、視覚的に類似しているが意味的に異なる画像を区別できない。
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
クラス名が知られているゼロショット設定とは異なり、この設定でクラスタの数しか分かっていません。
したがって、画像を適切な意味空間にマッピングする方法と、画像と意味空間の両方から画像をクラスタリングする方法は、2つの重要な問題である。
上記の問題を解決するために、視覚言語事前学習モデルCLIPによって導かれる新しい画像クラスタリング手法である「textbf{Semantic-Enhanced Image Clustering (SIC)」を提案する。
本手法では,与えられた画像を適切な意味空間にマップする手法を最初に提案し,画像と意味論の関係に応じて擬似ラベルを生成する効率的な手法を提案する。
最後に,画像空間と意味空間の両方で一貫性のあるクラスタリングを自己教師付き学習方式で行うことを提案する。
収束解析の理論的結果は,提案手法がサブ線形速度で収束できることを示唆している。
また,予測リスクの理論的分析から,予測整合性の向上,予測信頼度の向上,近隣の不均衡の低減などにより,予測リスクを低減できることが示唆された。
5つのベンチマークデータセットの実験結果から,新しい手法の優位性が明らかとなった。
関連論文リスト
- Dual-Level Cross-Modal Contrastive Clustering [4.083185193413678]
我々はDXMC(Dual-level Cross-Modal Contrastive Clustering)という画像クラスタリングフラムワークを提案する。
画像とテキストのペアを生成するために使用される意味空間を構築するために、外部テキスト情報が導入される。
予め訓練された画像とテキストエンコーダに画像とテキストのペアをそれぞれ送信し、4つのよく設計されたネットワークに次々に供給される画像とテキストの埋め込みを得る。
論文 参考訳(メタデータ) (2024-09-06T18:49:45Z) - Local Clustering for Lung Cancer Image Classification via Sparse Solution Technique [1.07793546088014]
重み付きグラフの頂点としてのイメージと,グラフのエッジとしてのイメージの対の類似性について検討する。
私たちのアプローチは、他の最先端のアプローチと比較して、はるかに効率的で、好ましくないか、等しく効果的です。
論文 参考訳(メタデータ) (2024-07-11T18:18:32Z) - Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering [37.15595383168132]
GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。
GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。
実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
論文 参考訳(メタデータ) (2023-10-27T03:07:05Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - One-Shot Image Classification by Learning to Restore Prototypes [11.448423413463916]
ワンショット画像分類は、カテゴリ毎に1つの画像しか持たないデータセット上で、イメージ分類器を訓練することを目的としている。
ワンショット学習では、既存のメトリック学習アプローチは、単一のトレーニングイメージがクラスを代表するものではない可能性があるため、パフォーマンスが低下する。
本稿では,RestoreNet で表される単純な回帰モデルを提案する。画像特徴のクラス変換を学習し,特徴空間のクラス中心に画像を移動させる。
論文 参考訳(メタデータ) (2020-05-04T02:11:30Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。