論文の概要: Semantic-enhanced Image Clustering
- arxiv url: http://arxiv.org/abs/2208.09849v1
- Date: Sun, 21 Aug 2022 09:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:43:17.990418
- Title: Semantic-enhanced Image Clustering
- Title(参考訳): 意味強調画像クラスタリング
- Authors: Shaotian Cai, Liping Qiu, Xiaojun Chen, Qin Zhang, Longteng Chen
- Abstract要約: 本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。
本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
- 参考スコア(独自算出の注目度): 6.218389227248297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image clustering is an important, and open challenge task in computer vision.
Although many methods have been proposed to solve the image clustering task,
they only explore images and uncover clusters according to the image features,
thus are unable to distinguish visually similar but semantically different
images. In this paper, we propose to investigate the task of image clustering
with the help of visual-language pre-training model. Different from the
zero-shot setting in which the class names are known, we only know the number
of clusters in this setting. Therefore, how to map images to a proper semantic
space and how to cluster images from both image and semantic spaces are two key
problems. To solve the above problems, we propose a novel image clustering
method guided by the visual-language pre-training model CLIP, named as
\textbf{Semantic-enhanced Image Clustering (SIC)}. In this new method, we
propose a method to map the given images to a proper semantic space first and
efficient methods to generate pseudo-labels according to the relationships
between images and semantics. Finally, we propose to perform clustering with
the consistency learning in both image space and semantic space, in a
self-supervised learning fashion. Theoretical result on convergence analysis
shows that our proposed method can converge in sublinear speed. Theoretical
analysis on expectation risk also shows that we can reduce the expectation risk
by improving the neighborhood consistency or prediction confidence or reducing
neighborhood imbalance. Experimental results on five benchmark datasets clearly
show the superiority of our new method.
- Abstract(参考訳): 画像クラスタリングはコンピュータビジョンにおいて重要かつオープンな課題である。
画像クラスタリングタスクを解決するために多くの方法が提案されているが、画像の特徴に従って画像やクラスタを探索するのみであり、視覚的に類似しているが意味的に異なる画像を区別できない。
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
クラス名が知られているゼロショット設定とは異なり、この設定でクラスタの数しか分かっていません。
したがって、画像を適切な意味空間にマッピングする方法と、画像と意味空間の両方から画像をクラスタリングする方法は、2つの重要な問題である。
そこで,本稿では,視覚言語事前学習モデルクリップを用いた新しい画像クラスタリング手法である \textbf{semantic-enhanced image clustering (sic)"を提案する。
本手法では,与えられた画像を適切な意味空間にマップする手法を最初に提案し,画像と意味論の関係に応じて擬似ラベルを生成する効率的な手法を提案する。
最後に,画像空間と意味空間の両方において,自己教師あり学習方式で一貫性学習によるクラスタリングを実現することを提案する。
収束解析に関する理論的結果は,提案手法が部分線形速度で収束することを示す。
また,予測リスクに関する理論的分析により,近隣の整合性の向上や予測信頼度の向上,近隣の不均衡の低減などにより予測リスクを低減できることが示された。
5つのベンチマークデータセットの実験結果から,新しい手法の優位性が明らかとなった。
関連論文リスト
- Patch-Based Deep Unsupervised Image Segmentation using Graph Cuts [0.0]
本稿では,従来のグラフ手法のアルゴリズム的助けを借りて,教師なし特徴抽出の進歩を橋渡しするパッチベースの教師なし画像分割戦略を提案する。
画像パッチを分類するために訓練された単純な畳み込みニューラルネットワークは、自然に最先端の完全畳み込み非教師付きピクセルレベルのセグメンタに繋がることを示す。
論文 参考訳(メタデータ) (2023-11-01T19:59:25Z) - Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering [37.15595383168132]
GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。
GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。
実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
論文 参考訳(メタデータ) (2023-10-27T03:07:05Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Unsupervised Image Segmentation using Mutual Mean-Teaching [12.784209596867495]
より安定した結果を得るために,Mutual Mean-Teaching (MMT) フレームワークに基づく教師なし画像分割モデルを提案する。
実験結果から,提案モデルでは様々な画像の分割が可能であり,既存の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-12-16T13:13:34Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - One-Shot Image Classification by Learning to Restore Prototypes [11.448423413463916]
ワンショット画像分類は、カテゴリ毎に1つの画像しか持たないデータセット上で、イメージ分類器を訓練することを目的としている。
ワンショット学習では、既存のメトリック学習アプローチは、単一のトレーニングイメージがクラスを代表するものではない可能性があるため、パフォーマンスが低下する。
本稿では,RestoreNet で表される単純な回帰モデルを提案する。画像特徴のクラス変換を学習し,特徴空間のクラス中心に画像を移動させる。
論文 参考訳(メタデータ) (2020-05-04T02:11:30Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - GATCluster: Self-Supervised Gaussian-Attention Network for Image
Clustering [9.722607434532883]
画像クラスタリングのための自己教師型クラスタリングネットワーク(GATCluster)を提案する。
まず中間機能を抽出し、次に従来のクラスタリングを実行する代わりに、GATClusterセマンティッククラスタラベルを後処理なしで実行します。
大規模画像のクラスタリングにメモリ効率のよい2段階学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-27T00:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。