論文の概要: SCISSR: Scribble-Conditioned Interactive Surgical Segmentation and Refinement
- arxiv url: http://arxiv.org/abs/2603.18544v1
- Date: Thu, 19 Mar 2026 07:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.988974
- Title: SCISSR: Scribble-Conditioned Interactive Surgical Segmentation and Refinement
- Title(参考訳): SCISSR: Scribble-Conditioned Interactive surgery Segmentation and Refinement
- Authors: Haonan Ping, Jian Jiang, Cheng Yuan, Qizhen Sun, Lv Wu, Yutong Ban,
- Abstract要約: インタラクティブな手術シーンセグメンテーションのためのスクリブル・プロンプタブル・フレームワークであるSCISSRを提案する。
ライトウェイトなScribbleは、フリーハンドのスクリブルをマスクデコーダと互換性のある密集したプロンプトの埋め込みに変換する。
SCISSRは、EndoVis 2018で95.41%のDiceを、5回の対話ラウンドで96.30%のDiceをCholecSeg8kで3回の対話ラウンドで達成し、両方のベンチマークで反復点よりも優れている。
- 参考スコア(独自算出の注目度): 6.1665244904503895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate segmentation of tissues and instruments in surgical scenes is annotation-intensive due to irregular shapes, thin structures, specularities, and frequent occlusions. While SAM models support point, box, and mask prompts, points are often too sparse and boxes too coarse to localize such challenging targets. We present SCISSR, a scribble-promptable framework for interactive surgical scene segmentation. It introduces a lightweight Scribble Encoder that converts freehand scribbles into dense prompt embeddings compatible with the mask decoder, enabling iterative refinement for a target object by drawing corrective strokes on error regions. Because all added modules (the Scribble Encoder, Spatial Gated Fusion, and LoRA adapters) interact with the backbone only through its standard embedding interfaces, the framework is not tied to a single model: we build on SAM 2 in this work, yet the same components transfer to other prompt-driven segmentation architectures such as SAM 3 without structural modification. To preserve pre-trained capabilities, we train only these lightweight additions while keeping the remaining backbone frozen. Experiments on EndoVis 2018 demonstrate strong in-domain performance, while evaluation on the out-of-distribution CholecSeg8k further confirms robustness across surgical domains. SCISSR achieves 95.41% Dice on EndoVis 2018 with five interaction rounds and 96.30% Dice on CholecSeg8k with three interaction rounds, outperforming iterative point prompting on both benchmarks.
- Abstract(参考訳): 手術シーンにおける組織や器具の正確なセグメンテーションは、不規則な形状、細い構造、特異性、頻繁な閉塞によってアノテーションに強く依存する。
SAMモデルはポイント、ボックス、マスクのプロンプトをサポートするが、ポイントはしばしばスパースであり、ボックスはそのような困難なターゲットをローカライズするには粗い。
インタラクティブな手術シーンセグメンテーションのためのスクリブル・プロンプタブル・フレームワークであるSCISSRを提案する。
ライトウェイトなスクリブルエンコーダを導入し、フリーハンドのスクリブルをマスクデコーダと互換性のある密集したプロンプト埋め込みに変換する。
すべての追加モジュール(Scribble Encoder、Spatial Gated Fusion、LoRAアダプタ)が標準の埋め込みインターフェースを通じてのみバックボーンと相互作用するため、フレームワークは単一のモデルに縛られません。
トレーニング済みの機能を維持するため、残りのバックボーンを凍結したまま、これらの軽量な追加のみをトレーニングします。
EndoVis 2018の実験では、ドメイン内のパフォーマンスが強く、アウト・オブ・ディストリビューション(out-of-distribution)のColecSeg8kに対する評価は、外科領域全体の堅牢性をさらに確認する。
SCISSRは、EndoVis 2018で95.41%のDiceを、5回の対話ラウンドで96.30%のDiceをCholecSeg8kで3回の対話ラウンドで達成し、両方のベンチマークで反復点よりも優れている。
関連論文リスト
- DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples [8.323617762880533]
ゼロショット異常分類(AC/AS)のためのMutual Scoring framework(MuSc-V2)を提案する。
私たちのフレームワークは、完全なデータセットと、一貫して堅牢なパフォーマンスを持つ小さなサブセットの両方で柔軟に機能します。
新たなフレームワークの助けを借りて、MuSc-V2は大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-11-13T07:47:37Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - DescriptorMedSAM: Language-Image Fusion with Multi-Aspect Text Guidance for Medical Image Segmentation [10.598528392988062]
本稿では,MedSAMの軽量拡張であるDescriptorMedSAMを提案する。
DescriptorMedSAMはCLIPテキストエンコーダを使用して、放射線学スタイルのディスクリプタを密度の高い埋め込みに変換する。
我々は、構造化言語プロンプトが空間的相互作用を効果的に置き換え、強力なゼロショット性能と高速な少数ショット適応を実現することを実証した。
論文 参考訳(メタデータ) (2025-03-18T01:35:34Z) - S4M: Segment Anything with 4 Extreme Points [2.052287962818431]
Segment Anything Model (SAM) は主にポイントやバウンディングボックスのようなスパースプロンプトに依存している。
S4Mは、インスタンスのトップポイント、ボトムポイント、左ポイント、右ポイントといった極端なポイントを活用することでSAMを強化します。
S4Mは3つの内視鏡的外科的データセットで他のSAMベースのアプローチより優れている。
論文 参考訳(メタデータ) (2025-03-07T16:02:11Z) - Interactive Segment Anything NeRF with Feature Imitation [20.972098365110426]
我々は,NeRFを用いたゼロショットセマンティックセグメンテーションを実現するために,オフザシェルフ認識モデルのバックボーン特徴を模倣することを提案する。
本フレームワークは,意味的特徴を直接描画し,認識モデルからデコーダのみを適用することによって,セグメンテーションプロセスを再構築する。
さらに,学習したセマンティクスを抽出したメッシュ表面に投影することで,リアルタイムインタラクションを実現する。
論文 参考訳(メタデータ) (2023-05-25T16:44:51Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Transforming the Interactive Segmentation for Medical Imaging [34.57242805353604]
本研究の目的は,人間のパフォーマンスに遅れる難易度の高い構造物の自動セグメンテーションをインタラクティブに洗練することである。
対話型(TIS)のための新しいトランスフォーマーアーキテクチャを提案する。
提案アーキテクチャはトランスフォーマーデコーダの変種で構成されており,アテンション機構と機能比較を自然に行う。
論文 参考訳(メタデータ) (2022-08-20T03:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。