論文の概要: Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels
- arxiv url: http://arxiv.org/abs/2409.19846v1
- Date: Mon, 30 Sep 2024 01:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 17:19:55.595925
- Title: Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels
- Title(参考訳): セマンティックラベルのない開語彙セマンティックセマンティックセマンティックセマンティックセマンティック化に向けて
- Authors: Heeseong Shin, Chaehyun Kim, Sunghwan Hong, Seokju Cho, Anurag Arnab, Paul Hongsuck Seo, Seungryong Kim,
- Abstract要約: 画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
- 参考スコア(独自算出の注目度): 53.8817160001038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale vision-language models like CLIP have demonstrated impressive open-vocabulary capabilities for image-level tasks, excelling in recognizing what objects are present. However, they struggle with pixel-level recognition tasks like semantic segmentation, which additionally require understanding where the objects are located. In this work, we propose a novel method, PixelCLIP, to adapt the CLIP image encoder for pixel-level understanding by guiding the model on where, which is achieved using unlabeled images and masks generated from vision foundation models such as SAM and DINO. To address the challenges of leveraging masks without semantic labels, we devise an online clustering algorithm using learnable class names to acquire general semantic concepts. PixelCLIP shows significant performance improvements over CLIP and competitive results compared to caption-supervised methods in open-vocabulary semantic segmentation. Project page is available at https://cvlab-kaist.github.io/PixelCLIP
- Abstract(参考訳): CLIPのような大規模視覚言語モデルは、イメージレベルのタスクに対して印象的なオープンボキャブラリ機能を示し、どのオブジェクトが存在するかを認識するのに優れています。
しかし、セマンティックセグメンテーションのようなピクセルレベルの認識タスクには、オブジェクトの位置を理解する必要が生じる。
本研究では,SAM や DINO などの視覚基盤モデルから生成した未ラベルの画像やマスクを用いて,その位置を導くことによって,CLIP 画像エンコーダを画素レベルの理解に適応させる新しい手法 PixelCLIP を提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,学習可能なクラス名を用いたオンラインクラスタリングアルゴリズムを考案し,一般的なセマンティック概念を取得する。
PixelCLIPは、オープン語彙セマンティックセグメンテーションにおけるキャプション管理手法と比較して、CLIPと競合する結果よりも大幅にパフォーマンスが向上した。
プロジェクトページはhttps://cvlab-kaist.github.io/PixelCLIPで公開されている。
関連論文リスト
- FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation [8.659766913542938]
我々は、すべての粒度の理解のために、統合された知覚的および意味的トークン圧縮について研究する。
本稿では,学習可能なコードブックによる多面的特徴のクラスタ化と多面的特徴の表現を目的とした特徴ピラミッドトークン化(PAT)を提案する。
実験の結果,PATはVLM特徴ピラミッドの意味的直感を増強することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:43:21Z) - LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。
本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。
提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T05:49:42Z) - Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.69721994194684]
本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。
AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。
SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文 参考訳(メタデータ) (2024-06-14T08:34:20Z) - Subobject-level Image Tokenization [60.80949852899857]
トランスフォーマーベースの視覚モデルは通常、イメージを入力単位として固定サイズの正方形パッチにトークン化する。
言語モデルに広く採用されているサブワードトークン化に着想を得て,サブオブジェクトレベルでの画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。