論文の概要: VPUFormer: Visual Prompt Unified Transformer for Interactive Image
Segmentation
- arxiv url: http://arxiv.org/abs/2306.06656v1
- Date: Sun, 11 Jun 2023 12:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:25:41.779146
- Title: VPUFormer: Visual Prompt Unified Transformer for Interactive Image
Segmentation
- Title(参考訳): VPUFormer: インタラクティブなイメージセグメンテーションのためのVisual Prompt Unified Transformer
- Authors: Xu Zhang, Kailun Yang, Jiacheng Lin, Jin Yuan, Zhiyong Li, Shutao Li
- Abstract要約: 本稿では,VPUFormer(Visual Prompt Unified Transformer)を提案する。
セグメンテーション性能を高めるために、より深い相互作用を伴う簡潔な統一されたプロンプト表現を導入する。
7つの挑戦的なデータセットに関する包括的な実験は、提案されたVPUFormerが一貫した改善を実現していることを示している。
- 参考スコア(独自算出の注目度): 22.160123481160834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of diverse visual prompts like clicks, scribbles, and boxes
in interactive image segmentation could significantly facilitate user
interaction as well as improve interaction efficiency. Most existing studies
focus on a single type of visual prompt by simply concatenating prompts and
images as input for segmentation prediction, which suffers from low-efficiency
prompt representation and weak interaction issues. This paper proposes a simple
yet effective Visual Prompt Unified Transformer (VPUFormer), which introduces a
concise unified prompt representation with deeper interaction to boost the
segmentation performance. Specifically, we design a Prompt-unified Encoder
(PuE) by using Gaussian mapping to generate a unified one-dimensional vector
for click, box, and scribble prompts, which well captures users' intentions as
well as provides a denser representation of user prompts. In addition, we
present a Prompt-to-Pixel Contrastive Loss (P2CL) that leverages user feedback
to gradually refine candidate semantic features, aiming to bring image semantic
features closer to the features that are similar to the user prompt, while
pushing away those image semantic features that are dissimilar to the user
prompt, thereby correcting results that deviate from expectations. On this
basis, our approach injects prompt representations as queries into Dual-cross
Merging Attention (DMA) blocks to perform a deeper interaction between image
and query inputs. A comprehensive variety of experiments on seven challenging
datasets demonstrates that the proposed VPUFormer with PuE, DMA, and P2CL
achieves consistent improvements, yielding state-of-the-art segmentation
performance. Our code will be made publicly available at
https://github.com/XuZhang1211/VPUFormer.
- Abstract(参考訳): インタラクティブなイメージセグメンテーションにおけるクリック、スクリブル、ボックスなどの多様な視覚的プロンプトの統合は、ユーザのインタラクションを著しく促進し、インタラクション効率を向上する。
既存の研究のほとんどは、セグメンテーション予測の入力としてプロンプトとイメージを単純に結合することで、単一のタイプのビジュアルプロンプトにフォーカスしている。
本稿では, セグメンテーション性能を高めるために, より深い相互作用を伴う簡潔な統一的なプロンプト表現を導入した, シンプルで効果的なVisual Prompt Unified Transformer (VPUFormer)を提案する。
具体的には,ガウス写像を用いてクリック・ボックス・クリブル・プロンプトの統一的な一次元ベクトルを生成し,ユーザの意図を捉えるとともに,ユーザのプロンプトのより密な表現を提供することにより,プロンプト統一エンコーダ(pue)を設計する。
さらに,p2cl(promply-to-pixel contrastive loss)を提案する。これは,ユーザからのフィードバックを駆使して,候補セマンティクス機能を徐々に洗練し,ユーザプロンプトと類似した機能に画像セマンティクス機能を近づけると同時に,ユーザプロンプトと異なるイメージセマンティクス機能をプッシュすることで,期待から逸脱した結果を補正する。
本手法では,dmaブロックにクエリとしてプロンプト表現を注入することで,画像入力とクエリ入力間のより深いインタラクションを実現する。
7つの挑戦的なデータセットに関する包括的な実験は、提案されているVPUFormerにPuE、DMA、P2CLが一貫した改善を実現し、最先端セグメンテーションのパフォーマンスが得られることを示した。
私たちのコードはhttps://github.com/XuZhang1211/VPUFormer.comで公開されます。
関連論文リスト
- iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection [34.20778042463112]
本稿では,新しい視覚的プロンプトチューニング (VPT) 手法である textbfiVPT を提案する。
これは、隣接層からの入力プロンプトトークンのための層間動的接続(CDC)を導入し、タスク関連情報の効果的な共有を可能にする。
これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別することで、注意力強化(AR)メカニズムを導入している。
論文 参考訳(メタデータ) (2024-04-08T05:23:12Z) - Towards Training-free Open-world Segmentation via Image Prompt
Foundation Models [14.988971382419138]
Image Prompt(IPSeg)は、画像プロンプト技術を利用したトレーニングフリーのパラダイムである。
IPSegは、主観的視覚概念を含む単一のイメージを、視覚基盤モデルをクエリするための柔軟なプロンプトとして利用する。
提案手法は,プロンプト画像と入力画像のロバストな特徴を抽出し,入力表現とプロンプト表現とのマッチングを行う。
論文 参考訳(メタデータ) (2023-10-17T01:12:08Z) - PE-MED: Prompt Enhancement for Interactive Medical Image Segmentation [9.744164910887223]
本稿では,対話型医用画像分割のためのプロンプトエンハンスメント(PE-MED)を備えた新しいフレームワークを提案する。
まず、最初のプロンプトに基づいて、温かい初期セグメンテーション結果を生成するセルフループ戦略を導入する。
第2に、1つのインタラクションにおいて有用な情報をマイニングするための新しいPrompt Attention Learning Module (PALM)を提案する。
論文 参考訳(メタデータ) (2023-08-26T03:11:48Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [25.91769241929558]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T08:57:00Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。