論文の概要: BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2603.10828v1
- Date: Wed, 11 Mar 2026 14:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.00052
- Title: BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation
- Title(参考訳): BALD-SAM:対話型セグメンテーションにおける分散に基づくアクティブプロンプト
- Authors: Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib,
- Abstract要約: 本稿では,ベイジアンアクティブラーニングを空間的プロンプト選択に適応させる原理的枠組みであるBALD-SAMを提案する。
BALD-SAMは16ベンチマークのうち、第1または第2のクロスドメインパフォーマンスを示している。
3つのSAMバックボーンと35個のLaplace後部構成を含む包括的アブレーションスイートを用いて,これらの利得を検証した。
- 参考スコア(独自算出の注目度): 12.449732626554967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model (SAM) has revolutionized interactive segmentation through spatial prompting. While existing work primarily focuses on automating prompts in various settings, real-world annotation workflows involve iterative refinement where annotators observe model outputs and strategically place prompts to resolve ambiguities. Current pipelines typically rely on the annotator's visual assessment of the predicted mask quality. We postulate that a principled approach for automated interactive prompting is to use a model-derived criterion to identify the most informative region for the next prompt. In this work, we establish active prompting: a spatial active learning approach where locations within images constitute an unlabeled pool and prompts serve as queries to prioritize information-rich regions, increasing the utility of each interaction. We further present BALD-SAM: a principled framework adapting Bayesian Active Learning by Disagreement (BALD) to spatial prompt selection by quantifying epistemic uncertainty. To do so, we freeze the entire model and apply Bayesian uncertainty modeling only to a small learned prediction head, making intractable uncertainty estimation practical for large multi-million parameter foundation models. Across 16 datasets spanning natural, medical, underwater, and seismic domains, BALD-SAM demonstrates strong cross-domain performance, ranking first or second on 14 of 16 benchmarks. We validate these gains through a comprehensive ablation suite covering 3 SAM backbones and 35 Laplace posterior configurations, amounting to 38 distinct ablation settings. Beyond strong average performance, BALD-SAM surpasses human prompting and, in several categories, even oracle prompting, while consistently outperforming one-shot baselines in final segmentation quality, particularly on thin and structurally complex objects.
- Abstract(参考訳): Segment Anything Model (SAM) は空間的プロンプトを通じて対話的セグメンテーションに革命をもたらした。
既存の作業は主にさまざまな設定におけるプロンプトの自動化に重点を置いているが、現実のアノテーションワークフローには、アノテータがモデル出力を観察し、曖昧さを解決するためのプロンプトを戦略的に配置する反復的な改善が含まれている。
現在のパイプラインは通常、予測されたマスク品質のアノテータの視覚的評価に依存している。
自動対話的プロンプトのための原則的アプローチは、モデル由来の基準を用いて、次のプロンプトの最も情報性の高い領域を特定することであると仮定する。
本研究では,画像内の位置がラベルのないプールを構成し,情報豊富な領域を優先するクエリとして機能し,各インタラクションの有用性を高める空間的アクティブ・ラーニング・アプローチを確立する。
さらに,ベイジアンアクティブラーニング(BALD)を適応する原理的枠組みであるBALD-SAMを,疫学的不確実性を定量化し,空間的プロンプト選択に適用する。
そこで我々は,モデル全体を凍結し,ベイズの不確実性モデルのみを学習した小さな予測ヘッドに適用し,大規模パラメータ基礎モデルに対して難解な不確実性推定を実践する。
自然、医学、水中、地震の領域にまたがる16のデータセットのうち、BALD-SAMは16のベンチマークで1位または2位という強いクロスドメインのパフォーマンスを示している。
3つのSAMバックボーンと35個のLaplace後部構成を包含する包括的アブレーションスイートを用いて,これらの利得を検証した。
BALD-SAMは、高い平均性能の他に、人間のプロンプトやいくつかのカテゴリにおいて、オラクルのプロンプトを上回り、最終的なセグメンテーション品質、特に薄く、構造的に複雑なオブジェクトにおいて一貫して1ショットのベースラインを上回ります。
関連論文リスト
- ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images [0.5076419064097732]
リモートセンシング画像にインタラクティブなセグメンテーションモデルを適用するセルフプロンプト・ポイント制御フレームワークを提案する。
提案手法を,WHU,HRSID,NWPU VHR-10を含む3つのRSIベンチマークデータセット上で評価した。
この結果から, リモートセンシングアプリケーションにおいて, 自己プロンプトとセマンティックアライメントが, 拡張性, ポイントレベルのセグメンテーションモデルへの適応に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-11-26T17:26:00Z) - CLAPS: A CLIP-Unified Auto-Prompt Segmentation for Multi-Modal Retinal Imaging [47.04292769940597]
CLIP統合オートプロンプト(CLAPS)は,網膜イメージングにおける様々なタスクとモダリティをまたいだセグメンテーションを統一する新しい手法である。
私たちのアプローチは、CLIPベースの画像エンコーダを、大規模なマルチモーダル網膜データセット上で事前トレーニングすることから始まります。
タスクを統一し、曖昧さを解消するために、各画像のモダリティに固有の「モダリティシグネチャ」を付加したテキストプロンプトを使用する。
論文 参考訳(メタデータ) (2025-09-10T14:14:49Z) - No time to train! Training-Free Reference-Based Instance Segmentation [15.061599989448867]
本研究は,少数の参照画像のみを備える場合のオブジェクトセグメンテーションの課題について検討する。
我々の重要な洞察は、ファンデーションモデルによって学習された強力なセマンティック・プライドを活用して、参照とターゲット画像の間の対応する領域を特定することである。
対応によって、下流タスクのためのインスタンスレベルのセグメンテーションマスクの自動生成が可能になり、マルチステージのトレーニング不要な方法でアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2025-07-03T16:59:01Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [43.42688356541211]
基礎モデルはシングルターン推論において優れているが、動的環境におけるマルチターン探索に苦慮している。
これらのモデルを,経験から学び,適応し,情報を収集する能力に基づいて評価した。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。