論文の概要: ProSAM: Enhancing the Robustness of SAM-based Visual Reference Segmentation with Probabilistic Prompts
- arxiv url: http://arxiv.org/abs/2506.21835v1
- Date: Fri, 27 Jun 2025 00:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.040914
- Title: ProSAM: Enhancing the Robustness of SAM-based Visual Reference Segmentation with Probabilistic Prompts
- Title(参考訳): ProSAM:確率的プロンプトによるSAMベースの視覚参照セグメンテーションのロバスト性向上
- Authors: Xiaoqi Wang, Clint Sebastian, Wenbin He, Liu Ren,
- Abstract要約: ProSAMは、既存のSAMベースのビジュアル参照セグメンテーションアプローチにおいて、我々が特定した安定性の課題に対処する、シンプルだが効果的な方法である。
ProSAMは不安定な領域にあるプロンプトの生成を回避し、より堅牢でないプロンプトによって引き起こされる不安定さを克服する。
私たちのアプローチは、Pascal-5$i$とCOCO-20$i$データセットの最先端メソッドを一貫して超越しています。
- 参考スコア(独自算出の注目度): 15.582637232358177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancements in large foundation models have driven the success of open-set image segmentation, a task focused on segmenting objects beyond predefined categories. Among various prompt types (such as points, boxes, texts, and visual references), visual reference segmentation stands out for its unique flexibility and strong zero-shot capabilities. Recently, several SAM-based methods have made notable progress in this task by automatically generating prompts to guide SAM. However, these methods often generate prompts at object boundaries due to suboptimal prompt encoder, which results in instability and reduced robustness. In this work, we introduce ProSAM, a simple but effective method to address the stability challenges we identified in existing SAM-based visual reference segmentation approaches. By learning a variational prompt encoder to predict multivariate prompt distributions, ProSAM avoids generating prompts that lie in unstable regions, overcoming the instability caused by less robust prompts. Our approach consistently surpasses state-of-the-art methods on the Pascal-5$^i$ and COCO-20$^i$ datasets, providing a more robust solution for visual reference segmentation.
- Abstract(参考訳): 大規模基盤モデルの最近の進歩は、未定義のカテゴリを超えてオブジェクトのセグメンテーションに焦点を当てた、オープンセットのイメージセグメンテーションの成功を促している。
様々なプロンプトタイプ(ポイント、ボックス、テキスト、ビジュアル参照など)の中で、視覚参照セグメンテーションは、その独特な柔軟性と強力なゼロショット機能で際立っている。
近年,SAM をベースとしたいくつかの手法が,SAM を誘導するプロンプトを自動生成することで,この課題に顕著な進展をもたらした。
しかし、これらの手法はしばしば、最適でないプロンプトエンコーダによるオブジェクト境界でのプロンプトを生成するため、不安定性とロバスト性は低下する。
本稿では,既存のSAMに基づく視覚的参照セグメンテーション手法における安定性問題に対処する,シンプルだが効果的な方法であるProSAMを紹介する。
多変量プロンプト分布を予測するための変分プロンプトエンコーダを学習することにより、ProSAMは不安定な領域にあるプロンプトの生成を回避し、より堅牢なプロンプトによる不安定さを克服する。
当社のアプローチは,Pascal-5$^i$およびCOCO-20$^i$データセットの最先端手法を一貫して上回り,ビジュアル参照セグメンテーションのためのより堅牢なソリューションを提供する。
関連論文リスト
- S^4M: Boosting Semi-Supervised Instance Segmentation with SAM [25.94737539065708]
半教師付きインスタンスセグメンテーションは、ラベル付きデータに制限があるため、課題を引き起こす。
現在の教師中心のフレームワークは、信頼性の低い擬似ラベルの品質のため、パフォーマンス上の制約に悩まされている。
論文 参考訳(メタデータ) (2025-04-07T17:59:10Z) - SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-02-10T18:33:15Z) - Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。
SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。