論文の概要: ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2210.05944v3
- Date: Thu, 30 Mar 2023 03:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:01:14.504487
- Title: ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation
- Title(参考訳): ACSeg: 教師なしセマンティックセグメンテーションのための適応的概念化
- Authors: Kehan Li, Zhennan Wang, Zesen Cheng, Runyi Yu, Yian Zhao, Guoli Song,
Chang Liu, Li Yuan, Jie Chen
- Abstract要約: 自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
- 参考スコア(独自算出の注目度): 17.019848796027485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-supervised large-scale visual pre-training models have shown
great promise in representing pixel-level semantic relationships, significantly
promoting the development of unsupervised dense prediction tasks, e.g.,
unsupervised semantic segmentation (USS). The extracted relationship among
pixel-level representations typically contains rich class-aware information
that semantically identical pixel embeddings in the representation space gather
together to form sophisticated concepts. However, leveraging the learned models
to ascertain semantically consistent pixel groups or regions in the image is
non-trivial since over/ under-clustering overwhelms the conceptualization
procedure under various semantic distributions of different images. In this
work, we investigate the pixel-level semantic aggregation in self-supervised
ViT pre-trained models as image Segmentation and propose the Adaptive
Conceptualization approach for USS, termed ACSeg. Concretely, we explicitly
encode concepts into learnable prototypes and design the Adaptive Concept
Generator (ACG), which adaptively maps these prototypes to informative concepts
for each image. Meanwhile, considering the scene complexity of different
images, we propose the modularity loss to optimize ACG independent of the
concept number based on estimating the intensity of pixel pairs belonging to
the same concept. Finally, we turn the USS task into classifying the discovered
concepts in an unsupervised manner. Extensive experiments with state-of-the-art
results demonstrate the effectiveness of the proposed ACSeg.
- Abstract(参考訳): 近年、自己監督型大規模視覚前訓練モデルでは、画素レベルの意味的関係を表現し、教師なしの密接な予測タスク、例えば教師なしセマンティックセグメンテーション(USS)の開発が著しく促進されている。
ピクセルレベルの表現間の抽出された関係は、通常、表現空間に意味的に同一の画素埋め込みが集まって洗練された概念を形成するようなリッチなクラス認識情報を含む。
しかしながら、画像内の意味的に一貫性のある画素群や領域を確認するために学習モデルを活用することは、異なる画像の様々な意味分布の下で概念化手順を圧倒するので、自明ではない。
本研究では,自己教師型ViT事前訓練モデルにおける画素レベルのセマンティックアグリゲーションをイメージセグメンテーションとして検討し,ACSegと呼ばれるUSSの適応概念化アプローチを提案する。
具体的には、概念を学習可能なプロトタイプに明示的にエンコードし、これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするAdaptive Concept Generator (ACG)を設計する。
一方,異なる画像のシーンの複雑さを考慮して,同一概念に属する画素対の強度を推定することにより,概念数に依存しないaggを最適化するモジュラリティロスを提案する。
最後に、USSタスクを教師なしの方法で発見された概念を分類する。
最先端実験により提案手法の有効性が示された。
関連論文リスト
- A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Unsupervised Hashing with Semantic Concept Mining [37.215530006668935]
本稿では,A を利用したセマンティック・マイニング・コンセプト "Un Hashing with Semantic Mining Concept" を提案する。
高品質な類似性マトリックス。
意味的類似度行列を案内情報として、修正された対照的な損失に基づく正規化項目による新規ハッシュ損失を提案し、ハッシュネットワークを最適化する。
論文 参考訳(メタデータ) (2022-09-23T08:25:24Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。