論文の概要: EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model
- arxiv url: http://arxiv.org/abs/2406.20076v4
- Date: Tue, 15 Oct 2024 06:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:04.443251
- Title: EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model
- Title(参考訳): EVF-SAM:テキストプロンプトセグメントモデルのための早期ビジョンランゲージ融合
- Authors: Yuxuan Zhang, Tianheng Cheng, Rui Hu, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang,
- Abstract要約: 初期ビジョン言語Fusion-based SAM (EVF-SAM) について紹介する。
EVF-SAMは、マルチモーダルプロンプト(画像とテキスト)を利用する、シンプルだが効果的な参照セグメンテーション手法である
BEIT-3をベースとしたEVF-SAMにより,RefCOCO/+/gにおける表現セグメンテーションの最先端性能が得られた。
- 参考スコア(独自算出の注目度): 41.29719405544942
- License:
- Abstract: Segment Anything Model (SAM) has attracted widespread attention for its superior interactive segmentation capabilities with visual prompts while lacking further exploration of text prompts. In this paper, we empirically investigate what text prompt encoders (e.g., CLIP or LLM) are good for adapting SAM for referring expression segmentation and introduce the Early Vision-language Fusion-based SAM (EVF-SAM). EVF-SAM is a simple yet effective referring segmentation method which exploits multimodal prompts (i.e., image and text) and comprises a pre-trained vision-language model to generate referring prompts and a SAM model for segmentation. Surprisingly, we observe that: (1) multimodal prompts and (2) vision-language models with early fusion (e.g., BEIT-3) are beneficial for prompting SAM for accurate referring segmentation. Our experiments show that the proposed EVF-SAM based on BEIT-3 can obtain state-of-the-art performance on RefCOCO/+/g for referring expression segmentation and demonstrate the superiority of prompting SAM with early vision-language fusion. In addition, the proposed EVF-SAM with 1.32B parameters achieves remarkably higher performance while reducing nearly 82% of parameters compared to previous SAM methods based on large multimodal models.
- Abstract(参考訳): Segment Anything Model (SAM) は、テキストプロンプトのさらなる探索を欠きながら、視覚的プロンプトを持つ優れた対話的セグメンテーション機能に対して、広く注目を集めている。
本稿では,テキストプロンプトエンコーダ(例えば,CLIP,LLM)が,表現セグメンテーションの参照にSAMを適用するのに有効かを実証的に検討し,Early Vision- Language Fusion-based SAM(EVF-SAM)を紹介する。
EVF-SAMは、マルチモーダルプロンプト(画像とテキスト)を利用して、参照プロンプトを生成するための事前学習された視覚言語モデルとセグメンテーションのためのSAMモデルを含む、シンプルで効果的な参照セグメンテーション手法である。
意外なことに、(1)マルチモーダルプロンプトと(2)早期融合(例えばBEIT-3)を持つ視覚言語モデルがSAMの正確な参照セグメンテーションに有用である。
実験の結果,BEIT-3に基づくEVF-SAMは,RefCOCO/+/gの表現セグメンテーションにおける最先端性能を得ることができ,早期視覚言語融合によるSAMの促進効果が示された。
さらに、1.32Bパラメータを持つEVF-SAMは、大規模なマルチモーダルモデルに基づく従来のSAM手法と比較して、パラメータの82%近くを削減し、非常に高い性能を達成する。
関連論文リスト
- SAM-SP: Self-Prompting Makes SAM Great Again [11.109389094334894]
Segment Anything Model (SAM)は、ゼロショットセグメンテーションタスクにおいて印象的な機能を示した。
SAMは、医療画像などの特定の領域に適用した場合、顕著な劣化性能に遭遇する。
本稿では,バニラSAMモデルの拡張に適したSAM-SPという,自己プロンプトに基づくファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T13:03:05Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Learning to Prompt Segment Anything Models [55.805816693815835]
Segment Anything Models (SAM)は、何かをセグメント化する学習において大きな可能性を実証している。
SAMは、空間的プロンプト(例えば、点)と意味的プロンプト(例えば、テキスト)を含む2種類のプロンプトで動作する。
より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
論文 参考訳(メタデータ) (2024-01-09T16:24:25Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z) - Sequential Attention Module for Natural Language Processing [5.3332456820449465]
本稿では,事前学習した言語モデルから学習したトークン埋め込みに基づいて,SAM(Sequential Attention Module)というプラグイン・アンド・プレイモジュールを提案する。
提案するSAMは,FAM(Feature-wise Attention Module)とTAM(Token-wise Attention Module)の2つの主要な注意モジュールで構成されている。
論文 参考訳(メタデータ) (2021-09-07T11:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。