論文の概要: CLASP: Adaptive Spectral Clustering for Unsupervised Per-Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.25016v1
- Date: Mon, 29 Sep 2025 16:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.131544
- Title: CLASP: Adaptive Spectral Clustering for Unsupervised Per-Image Segmentation
- Title(参考訳): CLASP: 教師なし画像分割のための適応スペクトルクラスタリング
- Authors: Max Curie, Paulo da Costa,
- Abstract要約: CLASPは教師なしのイメージセグメンテーションのための軽量なフレームワークである。
ラベル付きデータや微調整なしで動作します。
CLASPはCOCO StuffとADE20Kで競合するmIoUとピクセル精度を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce CLASP (Clustering via Adaptive Spectral Processing), a lightweight framework for unsupervised image segmentation that operates without any labeled data or finetuning. CLASP first extracts per patch features using a self supervised ViT encoder (DINO); then, it builds an affinity matrix and applies spectral clustering. To avoid manual tuning, we select the segment count automatically with a eigengap silhouette search, and we sharpen the boundaries with a fully connected DenseCRF. Despite its simplicity and training free nature, CLASP attains competitive mIoU and pixel accuracy on COCO Stuff and ADE20K, matching recent unsupervised baselines. The zero training design makes CLASP a strong, easily reproducible baseline for large unannotated corpora especially common in digital advertising and marketing workflows such as brand safety screening, creative asset curation, and social media content moderation
- Abstract(参考訳): CLASP(Clustering via Adaptive Spectral Processing)は、ラベル付きデータや微調整なしで動作可能な、教師なしのイメージセグメンテーションのための軽量フレームワークである。
CLASPはまず、セルフ教師付きViTエンコーダ(DINO)を使用してパッチ機能毎の抽出を行い、アフィニティマトリックスを構築し、スペクトルクラスタリングを適用する。
手動チューニングを避けるため、固有ギャップシルエット探索によりセグメント数を自動的に選択し、完全に接続されたDenseCRFで境界線をシャープする。
CLASPはその単純さとトレーニング自由な性質にもかかわらず、COCO StuffとADE20Kで競合するmIoUとピクセル精度を実現し、最近の教師なしベースラインと一致している。
ゼロトレーニング設計により、CLASPは、特にブランド安全スクリーニング、クリエイティブアセットキュレーション、ソーシャルメディアコンテンツモデレーションといったデジタル広告やマーケティングワークフローで一般的な、大きな未発表コーパスに対して、強力で再現しやすいベースラインとなる。
関連論文リスト
- Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - ConformalSAM: Unlocking the Potential of Foundational Segmentation Models in Semi-Supervised Semantic Segmentation with Conformal Prediction [57.930531826380836]
本研究は,未ラベル画像のアノテータとして画素レベルの視覚課題におけるラベル不足に,基礎的セグメンテーションモデルが対処できるかどうかを考察する。
ConformalSAMは,まず対象ドメインのラベル付きデータを用いて基礎モデルを校正し,ラベルなしデータの信頼できないピクセルラベルをフィルタリングする新しいSSSSフレームワークである。
論文 参考訳(メタデータ) (2025-07-21T17:02:57Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - An Empirical Study into Clustering of Unseen Datasets with Self-Supervised Encoders [34.000135361782206]
トレーニングされていないデータセットに事前トレーニングされたイメージモデルをデプロイし、それらの埋め込みが意味のあるクラスタを形成するかどうかを調査します。
この評価は、教師付きモデルに異なる特徴を優先する自己教師付きモデルの埋め込みに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-04T16:34:17Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - CueGCL: Cluster-aware Personalized Self-Training for Unsupervised Graph Contrastive Learning [49.88192702588169]
本稿ではクラスタリング結果とノード表現を協調的に学習するクラスタ対応グラフコントラスト学習フレームワーク(CueGCL)を提案する。
具体的には、教師なしシナリオのためのパーソナライズされた自己学習(PeST)戦略を設計し、クラスタレベルのパーソナライズされた正確な情報をモデルが取得できるようにする。
本稿では,モデルの有効性を理論的に実証し,クラスタ構造が著しく識別可能な埋め込み空間が得られることを示した。
論文 参考訳(メタデータ) (2023-11-18T13:45:21Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。