論文の概要: Dynamic Clustering Network for Unsupervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2210.05944v1
- Date: Wed, 12 Oct 2022 06:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:49:20.489460
- Title: Dynamic Clustering Network for Unsupervised Semantic Segmentation
- Title(参考訳): 教師なしセマンティクスセグメンテーションのための動的クラスタリングネットワーク
- Authors: Kehan Li, Zhennan Wang, Zesen Cheng, Runyi Yu, Yian Zhao, Guoli Song,
Li Yuan, Jie Chen
- Abstract要約: 画素レベルの意味関係を表す自己教師付き視覚変換器(ViT)は、教師なし密集予測タスクの開発を促進する。
本研究では,異なる画像に対して,基盤となるクラスタセンターを動的に推定する動的クラスタリングネットワーク(DCN)を提案する。
提案されたモジュラリティ損失をトレーニングすることにより、DCNは、各画像内のピクセル表現のためのクラスタセンターにプロトタイプセットを投影し、異なるクラスタにピクセルを割り当てることを学び、その結果、各イメージをクラスに依存しない領域に分割する。
- 参考スコア(独自算出の注目度): 15.594130467414505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the ability of self-supervised Vision Transformer (ViT) to
represent pixel-level semantic relationships promotes the development of
unsupervised dense prediction tasks. In this work, we investigate transferring
self-supervised ViT to unsupervised semantic segmentation task. According to
the analysis that the pixel-level representations of self-supervised ViT within
a single image achieve good intra-class compactness and inter-class
discrimination, we propose the Dynamic Clustering Network (DCN) to dynamically
infer the underlying cluster centers for different images. By training with the
proposed modularity loss, the DCN learns to project a set of prototypes to
cluster centers for pixel representations in each image and assign pixels to
different clusters, resulting on dividing each image to class-agnostic regions.
For achieving unsupervised semantic segmentation task, we treat it as a region
classification problem. Based on the regions produced by the DCN, we explore
different ways to extract region-level representations and classify them in an
unsupervised manner. We demonstrate the effectiveness of the proposed method
trough experiments on unsupervised semantic segmentation, and achieve
state-of-the-art performance on PASCAL VOC 2012 unsupervised semantic
segmentation task.
- Abstract(参考訳): 近年,画素レベルの意味関係を表現できる自己教師型視覚変換器(ViT)の能力は,教師なし密接な予測タスクの開発を促進する。
本研究では,教師なしセマンティックセグメンテーションタスクへの自己教師付きViTの転送について検討する。
単一の画像内の自己教師付きvitの画素レベル表現が良好なクラス内コンパクト性とクラス間識別を実現するという解析に基づいて、異なる画像のクラスタ中心を動的に推定する動的クラスタリングネットワーク(dcn)を提案する。
提案されたモジュラリティの損失をトレーニングすることで、dcnはプロトタイプのセットを各イメージのピクセル表現のクラスタセンターにプロジェクションし、異なるクラスタにピクセルを割り当てることを学び、各イメージをクラスに依存しない領域に分割する。
教師なしのセマンティックセグメンテーションタスクを実現するため、領域分類問題として扱う。
我々は,DCNが生成する領域に基づいて,地域レベルの表現を抽出し,教師なしの方法で分類する方法を探究する。
提案手法は,教師なしセマンティックセグメンテーションにおけるトラフ実験の有効性を実証し,PASCAL VOC 2012における最先端セマンティックセグメンテーションタスクを実現する。
関連論文リスト
- A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Unsupervised Hashing with Semantic Concept Mining [37.215530006668935]
本稿では,A を利用したセマンティック・マイニング・コンセプト "Un Hashing with Semantic Mining Concept" を提案する。
高品質な類似性マトリックス。
意味的類似度行列を案内情報として、修正された対照的な損失に基づく正規化項目による新規ハッシュ損失を提案し、ハッシュネットワークを最適化する。
論文 参考訳(メタデータ) (2022-09-23T08:25:24Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。