論文の概要: SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance
- arxiv url: http://arxiv.org/abs/2311.16241v1
- Date: Mon, 27 Nov 2023 19:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:15:01.377472
- Title: SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance
- Title(参考訳): SemiVL:ビジョンランゲージ誘導による半監督セマンティックセマンティックセグメンテーション
- Authors: Lukas Hoyer, David Joseph Tan, Muhammad Ferjad Naeem, Luc Van Gool,
Federico Tombari
- Abstract要約: 半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
- 参考スコア(独自算出の注目度): 97.00445262074595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In semi-supervised semantic segmentation, a model is trained with a limited
number of labeled images along with a large corpus of unlabeled images to
reduce the high annotation effort. While previous methods are able to learn
good segmentation boundaries, they are prone to confuse classes with similar
visual appearance due to the limited supervision. On the other hand,
vision-language models (VLMs) are able to learn diverse semantic knowledge from
image-caption datasets but produce noisy segmentation due to the image-level
training. In SemiVL, we propose to integrate rich priors from VLM pre-training
into semi-supervised semantic segmentation to learn better semantic decision
boundaries. To adapt the VLM from global to local reasoning, we introduce a
spatial fine-tuning strategy for label-efficient learning. Further, we design a
language-guided decoder to jointly reason over vision and language. Finally, we
propose to handle inherent ambiguities in class labels by providing the model
with language guidance in the form of class definitions. We evaluate SemiVL on
4 semantic segmentation datasets, where it significantly outperforms previous
semi-supervised methods. For instance, SemiVL improves the state-of-the-art by
+13.5 mIoU on COCO with 232 annotated images and by +6.1 mIoU on Pascal VOC
with 92 labels. Project page: https://github.com/google-research/semivl
- Abstract(参考訳): 半教師付きセマンティックセグメンテーションでは、モデルをラベル付き画像の限られた数とラベルなし画像の大きなコーパスで訓練し、高いアノテーションの労力を削減する。
従来の手法はセグメンテーション境界を学習できるが、監督が限られているため、視覚的に類似したクラスを混乱させる傾向がある。
一方、視覚言語モデル(VLM)は、画像キャプチャーデータセットから多様な意味知識を学習できるが、画像レベルの訓練によるノイズセグメンテーションを生成する。
SemiVL では,VLM の事前学習から得られた豊富な事前知識を半教師付きセマンティックセマンティックセグメンテーションに統合し,より優れた意味決定境界を学習することを提案する。
VLMをグローバルな推論からローカルな推論に適応させるために、ラベル効率の学習のための空間的微調整戦略を導入する。
さらに,視覚と言語を両立させる言語誘導デコーダの設計を行った。
最後に,クラス定義の形で言語指導を施したモデルを提供することにより,クラスラベルに固有の曖昧さを扱うことを提案する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
例えば、SemiVLはCOCOでは+13.5 mIoU、Pascal VOCでは92ラベルで+6.1 mIoUの改善を行っている。
プロジェクトページ: https://github.com/google-research/semivl
関連論文リスト
- Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Discovering Latent Classes for Semi-Supervised Semantic Segmentation [18.5909667833129]
本稿では,半教師付きセマンティックセグメンテーションの問題について検討する。
ラベル付き画像のセマンティッククラスと一致した潜在クラスを学習する。
提案手法は,半教師付きセマンティックセグメンテーションのための技術結果の状態を達成している。
論文 参考訳(メタデータ) (2019-12-30T14:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。