論文の概要: PVPUFormer: Probabilistic Visual Prompt Unified Transformer for Interactive Image Segmentation
- arxiv url: http://arxiv.org/abs/2306.06656v2
- Date: Sun, 03 Nov 2024 11:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:25:57.003753
- Title: PVPUFormer: Probabilistic Visual Prompt Unified Transformer for Interactive Image Segmentation
- Title(参考訳): PVPUFormer:インタラクティブイメージセグメンテーションのための確率的ビジュアルプロンプト統一トランス
- Authors: Xu Zhang, Kailun Yang, Jiacheng Lin, Jin Yuan, Zhiyong Li, Shutao Li,
- Abstract要約: 本稿では,対話型画像セグメンテーションのための簡易で効果的な確率的ビジュアルプロンプト統一変換器(PVPUFormer)を提案する。
本稿ではまず,プロンプト情報と非プロンプト情報の両方を探索することにより一次元ベクトルを生成する確率的プロンプト統一(PPuE)を提案する。
次にPrompt-to-Pixel Contrastive (P$2$C)ロスを示し、プロンプトとピクセルの特徴を正確に整合させ、それらの間の表現ギャップを埋める。
- 参考スコア(独自算出の注目度): 28.033243651780214
- License:
- Abstract: Integration of diverse visual prompts like clicks, scribbles, and boxes in interactive image segmentation significantly facilitates users' interaction as well as improves interaction efficiency. However, existing studies primarily encode the position or pixel regions of prompts without considering the contextual areas around them, resulting in insufficient prompt feedback, which is not conducive to performance acceleration. To tackle this problem, this paper proposes a simple yet effective Probabilistic Visual Prompt Unified Transformer (PVPUFormer) for interactive image segmentation, which allows users to flexibly input diverse visual prompts with the probabilistic prompt encoding and feature post-processing to excavate sufficient and robust prompt features for performance boosting. Specifically, we first propose a Probabilistic Prompt-unified Encoder (PPuE) to generate a unified one-dimensional vector by exploring both prompt and non-prompt contextual information, offering richer feedback cues to accelerate performance improvement. On this basis, we further present a Prompt-to-Pixel Contrastive (P$^2$C) loss to accurately align both prompt and pixel features, bridging the representation gap between them to offer consistent feature representations for mask prediction. Moreover, our approach designs a Dual-cross Merging Attention (DMA) module to implement bidirectional feature interaction between image and prompt features, generating notable features for performance improvement. A comprehensive variety of experiments on several challenging datasets demonstrates that the proposed components achieve consistent improvements, yielding state-of-the-art interactive segmentation performance. Our code is available at https://github.com/XuZhang1211/PVPUFormer.
- Abstract(参考訳): インタラクティブなイメージセグメンテーションにおけるクリック、スクリブル、ボックスなどの多様な視覚的プロンプトの統合は、ユーザのインタラクションを著しく促進し、インタラクション効率を向上させる。
しかし、既存の研究では、主にプロンプトの位置やピクセル領域を周囲の文脈的領域を考慮せずに符号化しており、結果として、性能加速には影響しないプロンプトフィードバックが不十分である。
そこで本研究では,対話型画像セグメント化のための簡易かつ効果的な確率的視覚プロンプト統一変換器 (PVPUFormer) を提案する。
具体的には,PuE(Probabilistic Prompt-Unified Encoder)を提案し,プロンプト情報と非プロンプト情報の両方を探索することにより一次元ベクトルを生成する。
そこで本研究では,P$^2$C(Prompt-to-Pixel Contrastive)の損失により,プロンプトとピクセルの両特徴を正確に整合させ,それらの表現ギャップを埋めてマスク予測のための一貫した特徴表現を提供する。
さらに,DMA(Dual-cross Merging Attention)モジュールを設計し,画像とプロンプト機能間の双方向的特徴相互作用を実装し,性能改善のための特筆すべき特徴を生成する。
いくつかの挑戦的なデータセットに関する包括的な実験は、提案されたコンポーネントが一貫した改善を実現し、最先端のインタラクティブセグメンテーション性能が得られることを示した。
私たちのコードはhttps://github.com/XuZhang1211/PVPUFormer.comから入手可能です。
関連論文リスト
- FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection [34.20778042463112]
本稿では,新しい視覚的プロンプトチューニング (VPT) 手法である textbfiVPT を提案する。
これは、隣接層からの入力プロンプトトークンのための層間動的接続(CDC)を導入し、タスク関連情報の効果的な共有を可能にする。
これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別することで、注意力強化(AR)メカニズムを導入している。
論文 参考訳(メタデータ) (2024-04-08T05:23:12Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T08:57:00Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。