論文の概要: BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts
- arxiv url: http://arxiv.org/abs/2503.19769v1
- Date: Tue, 25 Mar 2025 15:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:10.382245
- Title: BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts
- Title(参考訳): BiPrompt-SAM:ポイントとテキストのプロンプト間の明示的な選択による画像セグメンテーションの強化
- Authors: Suzhe Xu, Jialin Peng, Chengyuan Zhang,
- Abstract要約: BiPrompt-SAMは、新しいデュアルモーダルプロンプトセグメンテーションフレームワークである。
我々はSAM固有の複数のマスク候補を生成する能力を活用し、テキストプロンプトから意味誘導マスクと組み合わせる。
我々の明示的な二重選択法は、点プロンプトの空間的精度とテキストプロンプトの意味的豊かさを効果的に組み合わせている。
- 参考スコア(独自算出の注目度): 2.7218660375779513
- License:
- Abstract: Segmentation is a fundamental task in computer vision, with prompt-driven methods gaining prominence due to their flexibility. The recent Segment Anything Model (SAM) has demonstrated powerful point-prompt segmentation capabilities, while text-based segmentation models offer rich semantic understanding. However, existing approaches rarely explore how to effectively combine these complementary modalities for optimal segmentation performance. This paper presents BiPrompt-SAM, a novel dual-modal prompt segmentation framework that fuses the advantages of point and text prompts through an explicit selection mechanism. Specifically, we leverage SAM's inherent ability to generate multiple mask candidates, combined with a semantic guidance mask from text prompts, and explicitly select the most suitable candidate based on similarity metrics. This approach can be viewed as a simplified Mixture of Experts (MoE) system, where the point and text modules act as distinct "experts," and the similarity scoring serves as a rudimentary "gating network." We conducted extensive evaluations on both the Endovis17 medical dataset and RefCOCO series natural image datasets. On Endovis17, BiPrompt-SAM achieved 89.55\% mDice and 81.46\% mIoU, comparable to state-of-the-art specialized medical segmentation models. On the RefCOCO series datasets, our method attained 87.1\%, 86.5\%, and 85.8\% IoU, significantly outperforming existing approaches. Experiments demonstrate that our explicit dual-selection method effectively combines the spatial precision of point prompts with the semantic richness of text prompts, particularly excelling in scenarios involving semantically complex objects, multiple similar objects, and partial occlusions. BiPrompt-SAM not only provides a simple yet effective implementation but also offers a new perspective on multi-modal prompt fusion.
- Abstract(参考訳): セグメンテーションはコンピュータビジョンの基本的なタスクであり、プロンプト駆動の手法は柔軟性によって優位に立つ。
最近のSegment Anything Model (SAM)は、テキストベースのセグメンテーションモデルが豊富なセグメンテーション理解を提供するのに対し、強力なポイントプロンプトセグメンテーション機能を示している。
しかし、これらの相補的モダリティを最適セグメンテーション性能に効果的に組み合わせる方法については、既存の手法はほとんど見つからない。
本稿では,2つのモーダルなプロンプトセグメンテーションフレームワークであるBiPrompt-SAMについて述べる。
具体的には、SAM固有の複数のマスク候補を生成する能力を活用し、テキストプロンプトから意味誘導マスクと組み合わせ、類似度指標に基づいて最適な候補を明示的に選択する。
このアプローチは、ポイントとテキストモジュールが異なる"専門家"として機能し、類似性のスコアリングが初歩的な"ゲーティングネットワーク"として機能する、単純化されたMixture of Experts (MoE)システムと見なすことができる。
本研究では,Endovis17の医療データセットとRefCOCOシリーズの自然画像データセットについて広範な評価を行った。
Endovis17では、BiPrompt-SAMは89.55\% mDiceと81.46\% mIoUを達成した。
RefCOCOシリーズのデータセットでは、我々の手法は87.1\%、86.5\%、85.8\%のIoUを達成し、既存のアプローチを著しく上回った。
提案手法は,テキストプロンプトの空間的精度とテキストプロンプトの意味的豊かさを効果的に組み合わせ,特に意味論的に複雑なオブジェクト,複数の類似オブジェクト,部分的オクルージョンを含むシナリオにおいて優れていることを示す。
BiPrompt-SAMは単純で効果的な実装を提供するだけでなく、マルチモーダル・プロンプト融合の新しい視点も提供する。
関連論文リスト
- Effective SAM Combination for Open-Vocabulary Semantic Segmentation [24.126307031048203]
Open-vocabulary semantic segmentationは、無制限のクラスにわたる画像にピクセルレベルのラベルを割り当てることを目的としている。
ESC-Netは、SAMデコーダブロックを利用してクラスに依存しないセグメンテーションを行う新しい1段オープン語彙セグメンテーションモデルである。
ESC-NetはADE20K、PASCAL-VOC、PASCAL-Contextなどの標準ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-11-22T04:36:12Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。