論文の概要: Generalizable Semantic Vision Query Generation for Zero-shot Panoptic
and Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2402.13697v1
- Date: Wed, 21 Feb 2024 10:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:55:56.406629
- Title: Generalizable Semantic Vision Query Generation for Zero-shot Panoptic
and Semantic Segmentation
- Title(参考訳): ゼロショットパノプティクスとセマンティックセグメンテーションのための一般化可能なセマンティックビジョンクエリ生成
- Authors: Jialei Chen, Daisuke Deguchi, Chenkai Zhang, Hiroshi Murase
- Abstract要約: Zero-shot Panoptic(ZPS)は、トレーニングで目に見えないカテゴリを含むイメージなしで、フォアグラウンドインスタンスやバックグラウンドオブジェクトを認識することを目的としている。
一般化可能なセマンティックビジョンクエリを生成するための条件付きtOken AligNmentとCycle trAnsiTion(CONCAT)を提案する。
ZPSの実験はSOTAを超える5.2%hPQの増加を達成した。
- 参考スコア(独自算出の注目度): 3.1976724095315268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Panoptic Segmentation (ZPS) aims to recognize foreground instances
and background stuff without images containing unseen categories in training.
Due to the visual data sparsity and the difficulty of generalizing from seen to
unseen categories, this task remains challenging. To better generalize to
unseen classes, we propose Conditional tOken aligNment and Cycle trAnsiTion
(CONCAT), to produce generalizable semantic vision queries. First, a feature
extractor is trained by CON to link the vision and semantics for providing
target queries. Formally, CON is proposed to align the semantic queries with
the CLIP visual CLS token extracted from complete and masked images. To address
the lack of unseen categories, a generator is required. However, one of the
gaps in synthesizing pseudo vision queries, ie, vision queries for unseen
categories, is describing fine-grained visual details through semantic
embeddings. Therefore, we approach CAT to train the generator in
semantic-vision and vision-semantic manners. In semantic-vision, visual query
contrast is proposed to model the high granularity of vision by pulling the
pseudo vision queries with the corresponding targets containing segments while
pushing those without segments away. To ensure the generated queries retain
semantic information, in vision-semantic, the pseudo vision queries are mapped
back to semantic and supervised by real semantic embeddings. Experiments on ZPS
achieve a 5.2% hPQ increase surpassing SOTA. We also examine inductive ZPS and
open-vocabulary semantic segmentation and obtain comparative results while
being 2 times faster in testing.
- Abstract(参考訳): zero-shot panoptic segmentation (zps) は、前景のインスタンスや背景物を認識することを目的としている。
視覚的データのスパーシティと目に見えるカテゴリから見えないカテゴリへの一般化の難しさのため、この課題は依然として困難である。
未知のクラスにもっと一般化するために,条件付きトークンアライメントとサイクルトランジション(concat)を提案し,汎用的なセマンティックビジョンクエリを生成する。
まず、特徴抽出器はConによって訓練され、ターゲットクエリを提供するためのビジョンとセマンティクスをリンクする。
形式的には、conは、セマンティッククエリと、完全かつマスキングされた画像から抽出されたCLIPビジュアルCLSトークンとを整合させる。
未知のカテゴリの欠如に対処するには、ジェネレータが必要である。
しかし、疑似視覚クエリ、すなわち見えないカテゴリのための視覚クエリを合成する際のギャップの1つは、セマンティック埋め込みによるきめ細かい視覚的詳細を記述することである。
そこで,我々はCATにアプローチして,セマンティック・ビジョン・セマンティックな方法でジェネレータを訓練する。
セマンティック・ビジョンでは、視覚の粒度をモデル化するために、擬似視覚クエリをセグメントを含む対応するターゲットで引っ張り出し、セグメントを押さずに視覚の粒度をモデル化する。
生成したクエリがセマンティック情報を確実に保持するために、視覚・セマンティックでは、擬似視覚クエリはセマンティックにマッピングされ、実際のセマンティック埋め込みによって管理される。
ZPSの実験はSOTAを超える5.2%hPQの増加を達成した。
また,インダクティブzpsとopen-vocabulary semantic segmentationについて検討し,テストの2倍の速度で比較結果を得た。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。