論文の概要: Zero-guidance Segmentation Using Zero Segment Labels
- arxiv url: http://arxiv.org/abs/2303.13396v2
- Date: Fri, 24 Mar 2023 06:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 11:13:53.574138
- Title: Zero-guidance Segmentation Using Zero Segment Labels
- Title(参考訳): ゼロセグメントラベルを用いたゼロ誘導セグメンテーション
- Authors: Pitchaporn Rewatbowornwong, Nattanat Chatthee, Ekapol Chuangsuwanich,
Supasorn Suwajanakorn
- Abstract要約: CLIPとDINOを用いた新規なゼロ誘導分割問題を提案する。
一般的な考え方は、まずイメージを小さなオーバーセグメントに分割し、それらをCLIPの視覚言語空間にエンコードし、テキストラベルに変換し、意味論的に類似したセグメントをまとめることである。
私たちの主な貢献は、CLIP内のアテンション層を分析することによって、2つのコンテキストのバランスをとる新しいアテンションマスキング技術です。
- 参考スコア(独自算出の注目度): 9.587588983834324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP has enabled new and exciting joint vision-language applications, one of
which is open-vocabulary segmentation, which can locate any segment given an
arbitrary text query. In our research, we ask whether it is possible to
discover semantic segments without any user guidance in the form of text
queries or predefined classes, and label them using natural language
automatically? We propose a novel problem zero-guidance segmentation and the
first baseline that leverages two pre-trained generalist models, DINO and CLIP,
to solve this problem without any fine-tuning or segmentation dataset. The
general idea is to first segment an image into small over-segments, encode them
into CLIP's visual-language space, translate them into text labels, and merge
semantically similar segments together. The key challenge, however, is how to
encode a visual segment into a segment-specific embedding that balances global
and local context information, both useful for recognition. Our main
contribution is a novel attention-masking technique that balances the two
contexts by analyzing the attention layers inside CLIP. We also introduce
several metrics for the evaluation of this new task. With CLIP's innate
knowledge, our method can precisely locate the Mona Lisa painting among a
museum crowd. Project page: https://zero-guide-seg.github.io/.
- Abstract(参考訳): CLIPは新しくてエキサイティングな共同ビジョン言語アプリケーションを実現した。ひとつはオープン語彙セグメンテーションで、任意のテキストクエリの任意のセグメントを特定できる。
本研究では,テキストクエリや事前定義されたクラスでユーザ誘導なしに意味セグメントを見つけ出し,自然言語で自動的にラベル付けすることができるか質問する。
そこで本研究では,DINOとCLIPという2つの事前学習されたジェネラリストモデルを利用したゼロガイダンスセグメンテーションと第1ベースラインを提案する。
一般的なアイデアは、まず画像を小さなオーバーセグメントに分割し、クリップのビジュアル言語空間にエンコードし、テキストラベルに変換し、意味的に類似したセグメントをマージすることだ。
しかし、重要な課題は、視覚セグメントを、グローバルなコンテキスト情報とローカルなコンテキスト情報のバランスをとるセグメント固有の埋め込みにエンコードする方法だ。
私たちの主な貢献は、CLIP内のアテンション層を分析することによって、2つのコンテキストのバランスをとる新しいアテンションマスキング技術です。
この新しいタスクの評価のための指標もいくつか紹介する。
CLIPの生来の知識により、美術館の観衆の間でモナ・リザの絵を正確に見つけることができる。
プロジェクトページ: https://zero-guide-seg.github.io/
関連論文リスト
- USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - [CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。
具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。
提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文 参考訳(メタデータ) (2023-04-13T01:35:07Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。