論文の概要: More than Segmentation: Benchmarking SAM 3 for Segmentation, 3D Perception, and Reconstruction in Robotic Surgery
- arxiv url: http://arxiv.org/abs/2512.07596v2
- Date: Wed, 10 Dec 2025 07:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.216342
- Title: More than Segmentation: Benchmarking SAM 3 for Segmentation, 3D Perception, and Reconstruction in Robotic Surgery
- Title(参考訳): セグメンテーション以上のもの:ロボット手術におけるセグメンテーション, 3次元知覚, 再構成のためのSAM 3ベンチマーク
- Authors: Wenzhen Dong, Jieming Yu, Yiming Huang, Hongqiu Wang, Lei Zhu, Albert C. S. Chung, Hongliang Ren, Long Bai,
- Abstract要約: SAM 3は、ポイント、バウンディングボックス、言語ベースのプロンプトなど、幅広いプロンプトでゼロショットセグメンテーションをサポートする。
SAM 3D は空間的プロンプト下での映像と映像のセグメンテーションにおいて SAM と SAM 2 よりも明らかに改善されている。
言語プロンプトは潜在的な可能性を示すが、手術領域におけるそれらのパフォーマンスは、現在、準最適である。
- 参考スコア(独自算出の注目度): 23.89471097213949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent SAM 3 and SAM 3D have introduced significant advancements over the predecessor, SAM 2, particularly with the integration of language-based segmentation and enhanced 3D perception capabilities. SAM 3 supports zero-shot segmentation across a wide range of prompts, including point, bounding box, and language-based prompts, allowing for more flexible and intuitive interactions with the model. In this empirical evaluation, we assess the performance of SAM 3 in robot-assisted surgery, benchmarking its zero-shot segmentation with point and bounding box prompts and exploring its effectiveness in dynamic video tracking, alongside its newly introduced language prompt segmentation. While language prompts show potential, their performance in the surgical domain is currently suboptimal, highlighting the need for further domain-specific training. Additionally, we investigate SAM 3D's depth reconstruction abilities, demonstrating its capacity to process surgical scene data and reconstruct 3D anatomical structures from 2D images. Through comprehensive testing on the MICCAI EndoVis 2017 and EndoVis 2018 benchmarks, SAM 3 shows clear improvements over SAM and SAM 2 in both image and video segmentation under spatial prompts, while the zero-shot evaluations of SAM 3D on SCARED, StereoMIS, and EndoNeRF indicate strong monocular depth estimation and realistic 3D instrument reconstruction, yet also reveal remaining limitations in complex, highly dynamic surgical scenes.
- Abstract(参考訳): 最近のSAM 3とSAM 3Dは、特に言語ベースのセグメンテーションと強化された3D知覚機能の統合により、前者のSAM 2よりも大幅に進歩した。
SAM 3は、ポイント、バウンディングボックス、言語ベースのプロンプトなど、幅広いプロンプトにわたるゼロショットセグメンテーションをサポートしており、モデルとのより柔軟で直感的な対話を可能にしている。
この経験的評価では,ロボット支援手術におけるSAM 3の性能を評価し,ポイントとバウンディングボックスのプロンプトによるゼロショットセグメンテーションをベンチマークし,新たに導入された言語プロンプトセグメンテーションとともに動的ビデオトラッキングの有効性を探求する。
言語プロンプトは潜在的な可能性を示すが、手術領域におけるそれらのパフォーマンスは、現在、準最適であり、さらなるドメイン固有のトレーニングの必要性を強調している。
さらに,SAM 3Dの深部復元能力について検討し,手術シーンデータ処理能力と2次元画像から3次元解剖学的構造を再構築する能力を示した。
MICCAI EndoVis 2017とEndoVis 2018ベンチマークの総合的なテストを通じて、SAM 3は空間的プロンプト下でのイメージとビデオのセグメンテーションにおいてSAMとSAM 2よりも明確な改善を示した。
関連論文リスト
- Comparing SAM 2 and SAM 3 for Zero-Shot Segmentation of 3D Medical Data [0.3867363075280543]
SAM、SAM 2、および最近リリースされたSAM 3を含むプロンプト可能なセグメンテーションの基礎モデルは、医療画像のゼロショットセグメンテーションに再び関心を寄せている。
そこで本研究では, SAM 2 と SAM 3 を比較して, 純粋視覚的プロンプト下での3次元医用ボリュームとビデオのゼロショットセグメンテーションについて検討した。
両モデルを,54の解剖学的構造,病理,手術器具を含む16の公開データセットでベンチマークした。
論文 参考訳(メタデータ) (2025-11-26T21:36:58Z) - DEAP-3DSAM: Decoder Enhanced and Auto Prompt SAM for 3D Medical Image Segmentation [8.682548299881928]
SAM(Segment Anything Model)は、最近医療画像のセグメンテーションにおいて大きな可能性を証明している。
本研究では,空間的特徴量を高めるために,特徴強調デコーダを提案する。
また,デュアルアテンション・プロンプタを設計し,空間アテンションとチャネルアテンションを通じて情報を自動的に取得する。
論文 参考訳(メタデータ) (2025-11-24T13:07:22Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。
我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。
我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文 参考訳(メタデータ) (2025-08-05T15:36:13Z) - Inspiring the Next Generation of Segment Anything Models: Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes [97.8612925017964]
何十億ものイメージに基づいてトレーニングされた大規模な基礎モデル - マスクペアは、シーン、オブジェクト、コンテキストの幅広い多様性をカバーする。
SAM2とそのアップグレード版SAM2はコンピュータビジョンの複数の分野に大きな影響を与えた。
自然, 医療, 産業のシーンにおいて, 11枚のCDのコンセプトを2次元, 3次元画像, ビデオで徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-02T08:03:56Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - SAM 2 in Robotic Surgery: An Empirical Evaluation for Robustness and Generalization in Surgical Video Segmentation [13.609341065893739]
本研究では,ロボット支援手術におけるSAM2のゼロショットセグメンテーション性能について,プロンプトに基づく検討を行った。
1点とバウンディングボックスの2種類のプロンプトを使用し、ビデオシーケンスでは1点プロンプトを初期フレームに適用する。
ポイントプロンプトによる結果はSAMの能力よりも大幅に向上し、既存の未進展SOTAメソッドに近づいたり超えたりしている。
論文 参考訳(メタデータ) (2024-08-08T17:08:57Z) - Interactive 3D Medical Image Segmentation with SAM 2 [17.523874868612577]
ビデオで訓練した次世代のMeta SAMモデルSAM 2のゼロショット機能について, 医用画像のセグメンテーションについて検討する。
3D画像のシーケンシャルな2Dスライスをビデオフレームとして扱うことで、SAM 2は単一のフレームから3Dボリューム全体へのアノテーションの完全な伝達を可能にする。
論文 参考訳(メタデータ) (2024-08-05T16:58:56Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。