Fugu-MT 論文翻訳(概要): Prompt-Guided Mask Proposal for Two-Stage Open-Vocabulary Segmentation

論文の概要: Prompt-Guided Mask Proposal for Two-Stage Open-Vocabulary Segmentation

arxiv url: http://arxiv.org/abs/2412.10292v1
Date: Fri, 13 Dec 2024 17:22:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:49.052712
Title: Prompt-Guided Mask Proposal for Two-Stage Open-Vocabulary Segmentation
Title（参考訳）: Prompt-Guided Mask Proposal for Two-Stage Open-Vocabulary Segmentation
Authors: Yu-Jhe Li, Xinyang Zhang, Kun Wan, Lantao Yu, Ajinkya Kale, Xin Lu,
Abstract要約: オープン語彙セグメンテーション(open-vocabulary segmentation)の課題に取り組み、異なる環境における幅広いカテゴリのオブジェクトを識別する必要がある。既存の方法はCLIPのようなマルチモーダルモデルを使うことが多い。本稿では,PMP(Prompt-Guided Mask Proposal)を提案する。
参考スコア（独自算出の注目度）: 21.30568336073013
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We tackle the challenge of open-vocabulary segmentation, where we need to identify objects from a wide range of categories in different environments, using text prompts as our input. To overcome this challenge, existing methods often use multi-modal models like CLIP, which combine image and text features in a shared embedding space to bridge the gap between limited and extensive vocabulary recognition, resulting in a two-stage approach: In the first stage, a mask generator takes an input image to generate mask proposals, and the in the second stage the target mask is picked based on the query. However, the expected target mask may not exist in the generated mask proposals, which leads to an unexpected output mask. In our work, we propose a novel approach named Prompt-guided Mask Proposal (PMP) where the mask generator takes the input text prompts and generates masks guided by these prompts. Compared with mask proposals generated without input prompts, masks generated by PMP are better aligned with the input prompts. To realize PMP, we designed a cross-attention mechanism between text tokens and query tokens which is capable of generating prompt-guided mask proposals after each decoding. We combined our PMP with several existing works employing a query-based segmentation backbone and the experiments on five benchmark datasets demonstrate the effectiveness of this approach, showcasing significant improvements over the current two-stage models (1% ~ 3% absolute performance gain in terms of mIOU). The steady improvement in performance across these benchmarks indicates the effective generalization of our proposed lightweight prompt-aware method.
Abstract（参考訳）: 我々はオープン語彙セグメンテーションの課題に取り組み、入力としてテキストプロンプトを用いて、異なる環境における幅広いカテゴリのオブジェクトを識別する必要がある。この課題を克服するために、既存のメソッドでは、共有埋め込み空間における画像とテキストの特徴を組み合わせたCLIPのようなマルチモーダルモデルを使用して、制限された語彙認識と広範囲な語彙認識のギャップを埋める。しかし、予測されたターゲットマスクは生成されたマスクの提案には存在せず、予期しない出力マスクにつながる可能性がある。本研究では,PMP (Prompt-Guided Mask Proposal) という新しい手法を提案する。入力プロンプトなしで生成されるマスク提案と比較して、PMPが生成するマスクは入力プロンプトと整合性がよい。 PMPを実現するために,テキストトークンとクエリトークン間のクロスアテンション機構を設計した。私たちはPMPと、クエリベースのセグメンテーションバックボーンを使用した既存のいくつかの作業を組み合わせることで、このアプローチの有効性を示す5つのベンチマークデータセットの実験を行い、現在の2段階モデル(mIOUでは1%～3%の絶対的なパフォーマンス向上)よりも大幅に改善されていることを示した。これらのベンチマークによる性能の着実に向上は,提案手法を効果的に一般化したことを示す。

関連論文リスト

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。 HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文参考訳（メタデータ） (2025-03-17T10:29:08Z)
High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文参考訳（メタデータ） (2024-12-16T05:44:45Z)
Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation [39.73550543404763]
オープン語彙セグメンテーションにおいてこれらの課題に対処するための単純かつ効果的な手法であるMask-Adapterを導入する。提案手法では,提案マスクを直接使用するのに対し,提案マスクから意味的アクティベーションマップを抽出する。 Mask-Adapterは、マスクプーリングをプラグ・アンド・プレイ方式で、オープン語彙セグメンテーション手法にシームレスに統合する。
論文参考訳（メタデータ） (2024-12-05T17:42:37Z)
Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文参考訳（メタデータ） (2024-09-04T01:38:37Z)
ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文参考訳（メタデータ） (2024-07-17T22:04:00Z)
Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification [13.995453649985732]
顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
論文参考訳（メタデータ） (2024-04-22T22:02:19Z)
Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文参考訳（メタデータ） (2024-02-21T09:22:45Z)
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。 ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文参考訳（メタデータ） (2024-02-14T06:01:44Z)
Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文参考訳（メタデータ） (2023-11-24T12:57:34Z)
DynaMask: Dynamic Mask Selection for Instance Segmentation [21.50329070835023]
我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
論文参考訳（メタデータ） (2023-03-14T13:01:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。