Fugu-MT 論文翻訳(概要): VPUFormer: Visual Prompt Unified Transformer for Interactive Image Segmentation

論文の概要: VPUFormer: Visual Prompt Unified Transformer for Interactive Image Segmentation

arxiv url: http://arxiv.org/abs/2306.06656v1
Date: Sun, 11 Jun 2023 12:00:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 17:25:41.779146
Title: VPUFormer: Visual Prompt Unified Transformer for Interactive Image Segmentation
Title（参考訳）: VPUFormer: インタラクティブなイメージセグメンテーションのためのVisual Prompt Unified Transformer
Authors: Xu Zhang, Kailun Yang, Jiacheng Lin, Jin Yuan, Zhiyong Li, Shutao Li
Abstract要約: 本稿では,VPUFormer(Visual Prompt Unified Transformer)を提案する。セグメンテーション性能を高めるために、より深い相互作用を伴う簡潔な統一されたプロンプト表現を導入する。 7つの挑戦的なデータセットに関する包括的な実験は、提案されたVPUFormerが一貫した改善を実現していることを示している。
参考スコア（独自算出の注目度）: 22.160123481160834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The integration of diverse visual prompts like clicks, scribbles, and boxes in interactive image segmentation could significantly facilitate user interaction as well as improve interaction efficiency. Most existing studies focus on a single type of visual prompt by simply concatenating prompts and images as input for segmentation prediction, which suffers from low-efficiency prompt representation and weak interaction issues. This paper proposes a simple yet effective Visual Prompt Unified Transformer (VPUFormer), which introduces a concise unified prompt representation with deeper interaction to boost the segmentation performance. Specifically, we design a Prompt-unified Encoder (PuE) by using Gaussian mapping to generate a unified one-dimensional vector for click, box, and scribble prompts, which well captures users' intentions as well as provides a denser representation of user prompts. In addition, we present a Prompt-to-Pixel Contrastive Loss (P2CL) that leverages user feedback to gradually refine candidate semantic features, aiming to bring image semantic features closer to the features that are similar to the user prompt, while pushing away those image semantic features that are dissimilar to the user prompt, thereby correcting results that deviate from expectations. On this basis, our approach injects prompt representations as queries into Dual-cross Merging Attention (DMA) blocks to perform a deeper interaction between image and query inputs. A comprehensive variety of experiments on seven challenging datasets demonstrates that the proposed VPUFormer with PuE, DMA, and P2CL achieves consistent improvements, yielding state-of-the-art segmentation performance. Our code will be made publicly available at https://github.com/XuZhang1211/VPUFormer.
Abstract（参考訳）: インタラクティブなイメージセグメンテーションにおけるクリック、スクリブル、ボックスなどの多様な視覚的プロンプトの統合は、ユーザのインタラクションを著しく促進し、インタラクション効率を向上する。既存の研究のほとんどは、セグメンテーション予測の入力としてプロンプトとイメージを単純に結合することで、単一のタイプのビジュアルプロンプトにフォーカスしている。本稿では, セグメンテーション性能を高めるために, より深い相互作用を伴う簡潔な統一的なプロンプト表現を導入した, シンプルで効果的なVisual Prompt Unified Transformer (VPUFormer)を提案する。具体的には,ガウス写像を用いてクリック・ボックス・クリブル・プロンプトの統一的な一次元ベクトルを生成し,ユーザの意図を捉えるとともに,ユーザのプロンプトのより密な表現を提供することにより,プロンプト統一エンコーダ(pue)を設計する。さらに,p2cl(promply-to-pixel contrastive loss)を提案する。これは,ユーザからのフィードバックを駆使して,候補セマンティクス機能を徐々に洗練し,ユーザプロンプトと類似した機能に画像セマンティクス機能を近づけると同時に,ユーザプロンプトと異なるイメージセマンティクス機能をプッシュすることで,期待から逸脱した結果を補正する。本手法では,dmaブロックにクエリとしてプロンプト表現を注入することで,画像入力とクエリ入力間のより深いインタラクションを実現する。 7つの挑戦的なデータセットに関する包括的な実験は、提案されているVPUFormerにPuE、DMA、P2CLが一貫した改善を実現し、最先端セグメンテーションのパフォーマンスが得られることを示した。私たちのコードはhttps://github.com/XuZhang1211/VPUFormer.comで公開されます。

関連論文リスト

VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-29T08:24:39Z)
LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation [41.77434289193232]
視覚プロンプトのための低ランク行列乗算を導入した新しい視覚プロンプト設計法(LoR-VP)を提案する。 LoR-VPは、画像ピクセルの行と列をまたいだ共有およびパッチ固有の情報を可能にする。実験では、最先端の視覚的プロンプト法と比較して、性能と効率の両面で大きな改善が示されている。
論文参考訳（メタデータ） (2025-02-02T20:10:48Z)
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。 FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文参考訳（メタデータ） (2024-08-21T15:30:35Z)
LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文参考訳（メタデータ） (2024-07-09T10:15:31Z)
iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection [34.20778042463112]
本稿では,新しい視覚的プロンプトチューニング (VPT) 手法である textbfiVPT を提案する。これは、隣接層からの入力プロンプトトークンのための層間動的接続(CDC)を導入し、タスク関連情報の効果的な共有を可能にする。これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別することで、注意力強化(AR)メカニズムを導入している。
論文参考訳（メタデータ） (2024-04-08T05:23:12Z)
ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文参考訳（メタデータ） (2023-08-20T03:22:23Z)
DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。 Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文参考訳（メタデータ） (2023-08-03T17:33:20Z)
InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文参考訳（メタデータ） (2023-04-06T08:57:00Z)
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文参考訳（メタデータ） (2023-03-30T06:02:40Z)
Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文参考訳（メタデータ） (2023-02-20T11:24:23Z)
Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文参考訳（メタデータ） (2022-08-17T15:06:36Z)
Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-14T13:55:33Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。