Fugu-MT 論文翻訳(概要): Plug-and-Play, Dense-Label-Free Extraction of Open-Vocabulary Semantic Segmentation from Vision-Language Models

論文の概要: Plug-and-Play, Dense-Label-Free Extraction of Open-Vocabulary Semantic Segmentation from Vision-Language Models

arxiv url: http://arxiv.org/abs/2311.17095v1
Date: Tue, 28 Nov 2023 06:42:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 00:06:19.946415
Title: Plug-and-Play, Dense-Label-Free Extraction of Open-Vocabulary Semantic Segmentation from Vision-Language Models
Title（参考訳）: 視覚言語モデルからの開語彙セマンティックセマンティックセグメンテーションのプラグアンドプレイ自由抽出
Authors: Luo Jiayun, Siddhesh Khandelwal, Leonid Sigal, Boyang Li
Abstract要約: この課題に対して,COCO-OVSS (Plug-and-Play Open-Language-Vocabulary Semantic) を提案する。 OVSSは、直接テキストイメージのクロスアテンションを持つVLMと、画像テキストマッチング損失を利用してセマンティックセグメンテーションを生成する。モデルが最も注意を払っているパッチを反復的にドロップすることで、セグメンテーションマスクの全範囲をよりよく解決することができる。
参考スコア（独自算出の注目度）: 42.04986836450004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: From an enormous amount of image-text pairs, large-scale vision-language models (VLMs) learn to implicitly associate image regions with words, which is vital for tasks such as image captioning and visual question answering. However, leveraging such pre-trained models for open-vocabulary semantic segmentation remains a challenge. In this paper, we propose a simple, yet extremely effective, training-free technique, Plug-and-Play Open-Vocabulary Semantic Segmentation (PnP-OVSS) for this task. PnP-OVSS leverages a VLM with direct text-to-image cross-attention and an image-text matching loss to produce semantic segmentation. However, cross-attention alone tends to over-segment, whereas cross-attention plus GradCAM tend to under-segment. To alleviate this issue, we introduce Salience Dropout; by iteratively dropping patches that the model is most attentive to, we are able to better resolve the entire extent of the segmentation mask. Compared to existing techniques, the proposed method does not require any neural network training and performs hyperparameter tuning without the need for any segmentation annotations, even for a validation set. PnP-OVSS demonstrates substantial improvements over a comparable baseline (+29.4% mIoU on Pascal VOC, +13.2% mIoU on Pascal Context, +14.0% mIoU on MS COCO, +2.4% mIoU on COCO Stuff) and even outperforms most baselines that conduct additional network training on top of pretrained VLMs.
Abstract（参考訳）: 膨大な量の画像テキストペアから、大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学習する。しかし、そのような事前訓練されたモデルをオープン語彙セマンティックセグメンテーションに活用することは依然として課題である。本稿では,この課題に対してpnp-ovss (plug-and-play open-vocabulary semantic segmentation) を提案する。 PnP-OVSS は VLM を利用して直接テキスト対イメージのクロスアテンションと画像-テキストマッチングの損失を利用してセマンティックセグメンテーションを生成する。しかし、クロスアテンションだけは過剰なセグメントの傾向があり、クロスアテンションプラスGradCAMは低セグメントの傾向にある。この問題を緩和するために、Salience Dropoutを導入し、モデルが最も注意を払っているパッチを反復的にドロップすることで、セグメンテーションマスクの全範囲をよりよく解決する。既存の手法と比較して、提案手法はニューラルネットワークのトレーニングを必要とせず、バリデーションセットであってもセグメンテーションアノテーションを必要とせずにハイパーパラメータチューニングを実行する。 PnP-OVSSは、同等のベースライン(Pascal VOCでは+29.4% mIoU、Pascal Contextでは+13.2% mIoU、MS COCOでは+14.0% mIoU、COCO Stuffでは+2.4% mIoU)を大幅に改善し、事前訓練されたVLM上で追加のネットワークトレーニングを行うベースラインよりも優れている。

関連論文リスト

LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation [16.021683473678515]
視覚・言語モデル(VLM)を用いたセマンティックセグメンテーションのためのトレーニング不要手法を提案する。提案手法はラベル伝搬によるVLMのパッチごとの予測を高速化する。我々の手法はLPOSS+と呼ばれ、ウィンドウベースの処理を回避し、画像全体にわたって推論を行う。
論文参考訳（メタデータ） (2025-03-25T15:47:13Z)
Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation [8.659766913542938]
我々は、すべての粒度の理解のために、統合された知覚的および意味的トークン圧縮について研究する。本稿では,学習可能なコードブックによる多面的特徴のクラスタ化と多面的特徴の表現を目的とした特徴ピラミッドトークン化(PAT)を提案する。実験の結果,PATはVLM特徴ピラミッドの意味的直感を増強することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:43:21Z)
EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation [10.789633983083634]
EOV-Segは、オープン・ボキャブラリ・パノプティ・セグメンテーションのための新しい単一ステージ、共有、効率的、空間認識のフレームワークである。視覚的アグリゲーションのセマンティック理解を改善するために,Vocabulary-Aware Selection (VAS) モジュールを導入する。 The Two-way Dynamic Embedding Experts (TDEE) was introduced a Two-way Dynamic Embedding Experts (TDEE) to leverage the spatial awareness ability of ViT-based CLIP backbone。
論文参考訳（メタデータ） (2024-12-11T18:48:20Z)
Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文参考訳（メタデータ） (2024-01-22T18:59:29Z)
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [18.288738950822342]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。実験の結果,本手法はトレーニング不要の手法だけでなく,何百万ものデータサンプルを微調整した手法よりも優れていた。
論文参考訳（メタデータ） (2023-12-12T19:00:04Z)
Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion [24.02235805999193]
アノテーションを使わずに任意のものをゼロショットでセグメント化できるモデルを提案する。注意マップ間のKLのばらつきを計測し,それらを有効なセグメンテーションマスクにマージする,シンプルで効果的な反復的マージ手法を提案する。 COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
論文参考訳（メタデータ） (2023-08-23T23:44:44Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。 ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-01T08:47:06Z)
Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。 OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文参考訳（メタデータ） (2023-01-22T13:10:05Z)
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文参考訳（メタデータ） (2022-11-27T12:38:52Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)
Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文参考訳（メタデータ） (2020-11-18T08:42:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。