論文の概要: Self-Guided Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.04539v1
- Date: Thu, 7 Dec 2023 18:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:33:38.988554
- Title: Self-Guided Open-Vocabulary Semantic Segmentation
- Title(参考訳): 自己誘導型オープンボカブラリーセマンティクスセグメンテーション
- Authors: Osman \"Ulger, Maksymilian Kulicki, Yuki Asano, Martin R. Oswald
- Abstract要約: VLM(Vision-Language Models)は、オープンな画像理解タスクのための有望なツールとして登場した。
オープン語彙セグメンテーションのためのSelf-Guided Semantic(Self-Seg)フレームワークを提案する。
クラス名を指定せずにオープン語彙セグメンテーションを行うため,Pascal VOC,ADE20K,CityScapesの最先端結果を得た。
- 参考スコア(独自算出の注目度): 14.403912198859722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have emerged as promising tools for open-ended
image understanding tasks, including open vocabulary segmentation. Yet, direct
application of such VLMs to segmentation is non-trivial, since VLMs are trained
with image-text pairs and naturally lack pixel-level granularity. Recent works
have made advancements in bridging this gap, often by leveraging the shared
image-text space in which the image and a provided text prompt are represented.
In this paper, we challenge the capabilities of VLMs further and tackle
open-vocabulary segmentation without the need for any textual input. To this
end, we propose a novel Self-Guided Semantic Segmentation (Self-Seg) framework.
Self-Seg is capable of automatically detecting relevant class names from
clustered BLIP embeddings and using these for accurate semantic segmentation.
In addition, we propose an LLM-based Open-Vocabulary Evaluator (LOVE) to
effectively assess predicted open-vocabulary class names. We achieve
state-of-the-art results on Pascal VOC, ADE20K and CityScapes for
open-vocabulary segmentation without given class names, as well as competitive
performance with methods where class names are given. All code and data will be
released.
- Abstract(参考訳): VLM(Vision-Language Models)は、オープン語彙セグメンテーションを含む、オープンな画像理解タスクのための有望なツールとして登場した。
しかし、VLMは画像テキストペアで訓練されており、ピクセルレベルの粒度を欠いているため、セグメント化への直接適用は簡単ではない。
最近の研究は、画像と提供されたテキストプロンプトが表現される共有画像テキスト空間を活用することで、このギャップを埋める進化を遂げている。
本稿では、VLMのさらなる機能に挑戦し、テキスト入力を必要とせずにオープン語彙セグメンテーションに取り組む。
そこで我々は,自己ガイド型セマンティックセマンティックセグメンテーション(Self-Seg)フレームワークを提案する。
Self-Segは、クラスタ化されたBLIP埋め込みから関連するクラス名を自動的に検出し、それらを正確なセマンティックセグメンテーションに使用することができる。
さらに,LLMに基づくオープン語彙評価器 (LOVE) を提案し,予測されたオープン語彙クラス名を効果的に評価する。
クラス名を指定せずにオープン語彙セグメンテーションを行うPascal VOC,ADE20K,CityScapesの最先端結果と,クラス名を付与する手法との競合性能について述べる。
すべてのコードとデータがリリースされる。
関連論文リスト
- SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Zero-guidance Segmentation Using Zero Segment Labels [16.76478193075447]
CLIPとDINOを用いた新規なゼロ誘導分割問題を提案する。
一般的な考え方は、まずイメージを小さなオーバーセグメントに分割し、それらをCLIPの視覚言語空間にエンコードし、テキストラベルに変換し、意味論的に類似したセグメントをまとめることである。
私たちの主な貢献は、CLIP内のアテンション層を分析することによって、2つのコンテキストのバランスをとる新しいアテンションマスキング技術です。
論文 参考訳(メタデータ) (2023-03-23T16:15:07Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [38.63127343365129]
本稿では,新しいコスト集約手法を用いて,画像テキスト類似度マップ,すなわちコストマップを最適化する代替手法を提案する。
当社のフレームワーク,すなわちCAT-Segは,すべてのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Aligning Bag of Regions for Open-Vocabulary Object Detection [74.89762864838042]
本稿では,各地域を超えて,各地域のバッグを埋め込む方法を提案する。
提案手法は,バッグとしてコンテキスト的相互関連領域をグループ化する。
オープンボキャブラリCOCOとLVISベンチマークの新たなカテゴリでは,従来の4.6ボックスAP50と2.8マスクAPよりも優れている。
論文 参考訳(メタデータ) (2023-02-27T17:39:21Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Open-Vocabulary Image Segmentation [36.5086895686526]
任意のテキストで示される意味のある領域にイメージを整理するオープン語彙画像分割モデルを設計する。
これらのモデルは、視覚的セマンティックアライメントを学ぶ前に、ピクセルをグループにまとめる視覚的グループ化の重要なステップを欠いている、と我々は主張する。
私たちの仕事は、ホールドアウトセグメンテーションデータセットでゼロショット転送を実行する最初のものです。
論文 参考訳(メタデータ) (2021-12-22T18:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。