Fugu-MT 論文翻訳(概要): VRP-SAM: SAM with Visual Reference Prompt

論文の概要: VRP-SAM: SAM with Visual Reference Prompt

arxiv url: http://arxiv.org/abs/2402.17726v1
Date: Tue, 27 Feb 2024 17:58:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 15:04:57.562243
Title: VRP-SAM: SAM with Visual Reference Prompt
Title（参考訳）: VRP-SAM:ビジュアルリファレンスプロンプト付きSAM
Authors: Yanpeng Sun, Jiahui Chen, Shan Zhang, Xinyu Zhang, Qiang Chen, Gang Zhang, Errui Ding, Jingdong Wang, Zechao Li
Abstract要約: そこで我々は,Segment Anything Model (SAM) を利用した新しいVisual Reference Prompt (VRP) エンコーダを提案する。本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。
参考スコア（独自算出の注目度）: 75.80412480849276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a novel Visual Reference Prompt (VRP) encoder that empowers the Segment Anything Model (SAM) to utilize annotated reference images as prompts for segmentation, creating the VRP-SAM model. In essence, VRP-SAM can utilize annotated reference images to comprehend specific objects and perform segmentation of specific objects in target image. It is note that the VRP encoder can support a variety of annotation formats for reference images, including \textbf{point}, \textbf{box}, \textbf{scribble}, and \textbf{mask}. VRP-SAM achieves a breakthrough within the SAM framework by extending its versatility and applicability while preserving SAM's inherent strengths, thus enhancing user-friendliness. To enhance the generalization ability of VRP-SAM, the VRP encoder adopts a meta-learning strategy. To validate the effectiveness of VRP-SAM, we conducted extensive empirical studies on the Pascal and COCO datasets. Remarkably, VRP-SAM achieved state-of-the-art performance in visual reference segmentation with minimal learnable parameters. Furthermore, VRP-SAM demonstrates strong generalization capabilities, allowing it to perform segmentation of unseen objects and enabling cross-domain segmentation.
Abstract（参考訳）: 本稿では,segment anything model (sam) にアノテートされた参照画像をセグメント化のプロンプトとして利用させ,vrp-samモデルを作成する新しい視覚参照プロンプト(vrp)エンコーダを提案する。本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。注意すべき点は、VRPエンコーダが参照画像の様々なアノテーションフォーマットをサポートできることである。例えば、 \textbf{point}、 \textbf{box}、 \textbf{scribble}、 \textbf{mask} である。 VRP-SAMはSAMフレームワーク内で、SAM固有の強みを保ちながら、その汎用性と適用性を拡張し、ユーザフレンドリ性を高めることでブレークスルーを達成する。 VRP-SAMの一般化能力を高めるために、VRPエンコーダはメタラーニング戦略を採用する。また,VRP-SAMの有効性を検証するため,PascalおよびCOCOデータセットについて広範な実験を行った。注目すべきは、VRP-SAMは学習可能な最小のパラメータを持つビジュアル参照セグメンテーションにおいて最先端のパフォーマンスを達成したことである。さらに、vrp-samは強力な一般化機能を示し、見えないオブジェクトのセグメンテーションを実行し、クロスドメインセグメンテーションを可能にする。

関連論文リスト

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文参考訳（メタデータ） (2025-04-16T13:41:59Z)
Vision and Language Reference Prompt into SAM for Few-shot Segmentation [1.9458156037869137]
Segment Anything Model (SAM)は、柔軟なプロンプトで強力なゼロショット機能を実現する大規模なセグメンテーションモデルである。注記された参照イメージをSAMへのプロンプトとして入力し、ユーザが提供するプロンプトなしでターゲットイメージ内の特定のオブジェクトをセグメント化することで、これらの問題に対処する。本稿では,参照画像の視覚情報とテキストラベルのセマンティック情報を利用する,新しい数ショットセグメンテーションモデルであるVision and Language Reference Prompt to SAMを提案する。
論文参考訳（メタデータ） (2025-02-02T08:40:14Z)
SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-16T17:55:38Z)
Tuning a SAM-Based Model with Multi-Cognitive Visual Adapter to Remote Sensing Instance Segmentation [4.6570959687411975]
Segment Anything Model (SAM) は例外的な一般化能力を示す。 SAMは大規模なリモートセンシング画像の事前トレーニングを欠いているため、インタラクティブな構造は自動マスク予測能力を制限している。マルチ認知SAMベースインスタンスモデル (MC-SAM SEG) を導入し, リモートセンシング領域にSAMを採用する。 MC-SAM SEG と呼ばれる提案手法は,SAM-Mona エンコーダの微調整と特徴アグリゲータによって高品質な特徴を抽出する。
論文参考訳（メタデータ） (2024-08-16T07:23:22Z)
AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文参考訳（メタデータ） (2024-06-01T16:21:39Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。 The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。 CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文参考訳（メタデータ） (2024-01-04T15:54:45Z)
Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。 SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文参考訳（メタデータ） (2023-12-06T17:19:00Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文参考訳（メタデータ） (2023-06-28T14:51:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。