論文の概要: Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2503.23806v1
- Date: Mon, 31 Mar 2025 07:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:15.100765
- Title: Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation
- Title(参考訳): 汎用ゼロショットセマンティックセマンティックセグメンテーションのための視覚的・言語的理解のギャップを埋める
- Authors: Xiaoqing Guo, Wuyang Li, Yixuan Yuan,
- Abstract要約: 汎用ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、目に見えないクラスや見えないクラスのセグメンテーションを実現することを目的としている。
本稿では,空間部品 (SPMatch) とチャネル状態 (CSMatch) マッチングモジュールからなるデカップリング型視覚言語マッチング (DeVLMatch) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.17707407384492
- License:
- Abstract: Generalized zero-shot semantic segmentation (GZS3) aims to achieve the human-level capability of segmenting not only seen classes but also novel class regions unseen in the training data through introducing the bridge of semantic representations, e.g., word vector. While effective, the way of utilizing one semantic representation to associate the corresponding class and to enable the knowledge transfer from seen to unseen classes is insufficient as well as incompatible with human cognition. Inspired by the observation that humans often use some `part' and `state' information to comprehend the seen objects and imagine unseen classes, we decouple each class into detailed descriptions, including object parts and states. Based on the decoupling formulation, we propose a Decoupled Vision-Language Matching (DeVLMatch) framework, composed of spatial-part (SPMatch) and channel-state (CSMatch) matching modules, for GZS3. In SPMatch, we comprehend objects with spatial part information from both visual and linguistic perspectives and perform graph matching to bridge the gap. In CSMatch, states of objects from the linguistic perspective are matched to compatible channel information from the visual perspective. By decoupling and matching objects across visual and linguistic comprehension, we can explicitly introspect the relationship between seen and unseen classes in fine-grained object part and state levels, thereby facilitating the knowledge transfer from seen to unseen classes in visual space. The proposed DeVLMatch framework surpasses the previous GZS3 methods on standard benchmarks, including PASCAL VOC, COCO-Stuff, and CATARACTS, demonstrating its effectiveness.
- Abstract(参考訳): 汎用ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、クラスだけでなく、単語ベクトルなどの意味表現のブリッジを導入することで、トレーニングデータに見つからない新しいクラス領域のセマンティックセマンティックセマンティックセグメンテーションを実現することを目的としている。
効果はあるものの、ある意味表現を利用して対応するクラスを関連づけ、見知らぬクラスから見つからないクラスへの知識伝達を可能にする方法は、人間の認知と相容れないだけでなく、不十分である。
人間はよく「部分」と「状態」の情報を使って、目に見えないオブジェクトを理解し、未確認のクラスを想像し、各クラスを、オブジェクトの部分や状態を含む詳細な記述に分離する。
本稿では,GZS3 の空間部分 (SPMatch) とチャネル状態 (CSMatch) マッチングモジュールからなるデカップリング型視覚言語マッチング (DeVLMatch) フレームワークを提案する。
SPMatchでは,視覚的,言語的両面から空間的部分情報でオブジェクトを理解し,そのギャップを埋めるためにグラフマッチングを行う。
CSMatchでは、言語的観点からのオブジェクトの状態は、視覚的観点からの互換性のあるチャネル情報と一致します。
視覚的・言語的理解にまたがってオブジェクトを分離・整合させることにより、細粒度オブジェクト部分と状態レベルにおける見知らぬクラスと見えないクラスの関係を明示的にイントロスペクションすることが可能となり、視覚空間における見つからないクラスへの知識伝達が容易になる。
提案されたDeVLMatchフレームワークは、PASCAL VOC、COCO-Stuff、CATARACTSなど、従来の標準ベンチマーク上のGZS3メソッドを上回り、その有効性を実証している。
関連論文リスト
- Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Language-Mediated, Object-Centric Representation Learning [21.667413971464455]
我々はLORL(Language-mediated, Object-centric Representation Learning)を提案する。
LORLは、視覚と言語から乱れたオブジェクト中心のシーン表現を学習するためのパラダイムである。
言語に依存しない様々な教師なしセグメンテーションアルゴリズムと統合できます。
論文 参考訳(メタデータ) (2020-12-31T18:36:07Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。