論文の概要: S4M: Segment Anything with 4 Extreme Points
- arxiv url: http://arxiv.org/abs/2503.05534v1
- Date: Fri, 07 Mar 2025 16:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:35.505924
- Title: S4M: Segment Anything with 4 Extreme Points
- Title(参考訳): S4M: 極端に4つのポイントを持つセグメンテーション
- Authors: Adrien Meyer, Lorenzo Arboit, Giuseppe Massimiani, Francesco Brucchi, Luca Emanuele Amodio, Didier Mutter, Nicolas Padoy,
- Abstract要約: Segment Anything Model (SAM) は主にポイントやバウンディングボックスのようなスパースプロンプトに依存している。
S4Mは、インスタンスのトップポイント、ボトムポイント、左ポイント、右ポイントといった極端なポイントを活用することでSAMを強化します。
S4Mは3つの内視鏡的外科的データセットで他のSAMベースのアプローチより優れている。
- 参考スコア(独自算出の注目度): 2.052287962818431
- License:
- Abstract: The Segment Anything Model (SAM) has revolutionized open-set interactive image segmentation, inspiring numerous adapters for the medical domain. However, SAM primarily relies on sparse prompts such as point or bounding box, which may be suboptimal for fine-grained instance segmentation, particularly in endoscopic imagery, where precise localization is critical and existing prompts struggle to capture object boundaries effectively. To address this, we introduce S4M (Segment Anything with 4 Extreme Points), which augments SAM by leveraging extreme points -- the top-, bottom-, left-, and right-most points of an instance -- prompts. These points are intuitive to identify and provide a faster, structured alternative to box prompts. However, a na\"ive use of extreme points degrades performance, due to SAM's inability to interpret their semantic roles. To resolve this, we introduce dedicated learnable embeddings, enabling the model to distinguish extreme points from generic free-form points and better reason about their spatial relationships. We further propose an auxiliary training task through the Canvas module, which operates solely on prompts -- without vision input -- to predict a coarse instance mask. This encourages the model to internalize the relationship between extreme points and mask distributions, leading to more robust segmentation. S4M outperforms other SAM-based approaches on three endoscopic surgical datasets, demonstrating its effectiveness in complex scenarios. Finally, we validate our approach through a human annotation study on surgical endoscopic videos, confirming that extreme points are faster to acquire than bounding boxes.
- Abstract(参考訳): Segment Anything Model (SAM)は、オープンセットのインタラクティブなイメージセグメンテーションに革命をもたらし、医療領域の多くのアダプタを刺激した。
しかしSAMは主に、細粒度のインスタンスセグメンテーションに最適である点やバウンディングボックスのようなスパースプロンプトに依存しており、特に内視鏡画像では、正確な局所化が重要であり、既存のプロンプトはオブジェクトの境界を効果的に捉えるのに苦労している。
これを解決するために、S4M(Segment Anything with 4 Extreme Points)を導入します。
これらの点は直感的に識別でき、ボックスプロンプトの高速で構造化された代替手段を提供する。
しかし、SAMのセマンティックな役割を解釈できないため、極端なポイントの" na\" 的な使用はパフォーマンスを低下させる。
これを解決するために, 学習可能な埋め込みを導入し, モデルが極点と一般自由点を区別し, 空間的関係をよりよく理解できるようにする。
さらに、粗いインスタンスマスクを予測するために、視覚入力のないプロンプトのみで動作するCanvasモジュールによる補助訓練タスクを提案する。
これにより、モデルが極点とマスク分布の関係を内部化し、より堅牢なセグメンテーションをもたらす。
S4Mは3つの内視鏡的外科的データセットにおいて他のSAMベースのアプローチよりも優れており、複雑なシナリオにおいてその効果を実証している。
最後に,外科的内視鏡的ビデオに対するヒトのアノテーションによるアプローチを検証し,限界点がバウンディングボックスよりも早く取得できることを確認する。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - One Shot is Enough for Sequential Infrared Small Target Segmentation [9.354927663020586]
赤外線小ターゲットシーケンスはフレーム間に強い類似性を示し、リッチなコンテキスト情報を含む。
本稿では,SAMのゼロショット一般化能力を逐次IRSTSに完全に適応させるワンショット・トレーニングフリーな手法を提案する。
実験の結果,現状のIRSTS法に匹敵する性能を達成するためには,本手法では1ショットしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-08-09T02:36:56Z) - CycleSAM: One-Shot Surgical Scene Segmentation using Cycle-Consistent Feature Matching to Prompt SAM [2.9500242602590565]
CycleSAMは、テスト時にトレーニングイメージマスクペアを使用してワンショットの手術シーンセグメンテーションを行うアプローチである。
手術画像に事前訓練されたResNet50エンコーダを自己教師方式で採用し,高いラベル効率を維持する。
論文 参考訳(メタデータ) (2024-07-09T12:08:07Z) - SAM Fewshot Finetuning for Anatomical Segmentation in Medical Images [3.2099042811875833]
医用画像の解剖学的セグメンテーションタスクにSAM(Seegment Anything)を適用するための戦略を提案する。
画像埋め込みで取得した解剖学的クエリーオブジェクトのプロンプトとして,ラベル付き画像の限られたセットから得られる少数ショット埋め込みを利用する。
本手法は,キャッシング機構を用いてマスクデコーダのみをトレーニングすることにより,微調整プロセスの効率化を優先する。
論文 参考訳(メタデータ) (2024-07-05T17:07:25Z) - Performance Evaluation of Segment Anything Model with Variational Prompting for Application to Non-Visible Spectrum Imagery [15.748043194987075]
この研究は、X線/赤外線モダリティに関心のあるオブジェクトのセグメンテーションにおけるセグメンション・任意のモデル機能を評価する。
提案手法は,ボックスプロンプトが与えられた場合,SAMはオブジェクトをX線モードで分割できるが,その性能は点プロンプトによって異なる。
このモダリティの低コントラストの性質を考えると、赤外線オブジェクトもポイントプロンプトでセグメント化することが困難である。
論文 参考訳(メタデータ) (2024-04-18T16:04:14Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。