論文の概要: See in Depth: Training-Free Surgical Scene Segmentation with Monocular Depth Priors
- arxiv url: http://arxiv.org/abs/2512.05529v1
- Date: Fri, 05 Dec 2025 08:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.963409
- Title: See in Depth: Training-Free Surgical Scene Segmentation with Monocular Depth Priors
- Title(参考訳): 深度をみる:単眼深度を優先した無トレーニング手術シーンのセグメンテーション
- Authors: Kunyi Yang, Qingyu Wang, Cheng Yuan, Yutong Ban,
- Abstract要約: DepSegは、単分子深度を幾何学的先行として利用する、トレーニング不要のフレームワークである。
CholecSeg8kデータセットで、DepSegはSAM2自動セグメンテーションベースラインを直接改善する。
これらの結果は、深度誘導プロンプトとテンプレートベースの分類がアノテーション効率のセグメンテーションアプローチを提供することを示している。
- 参考スコア(独自算出の注目度): 8.641183789149949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel-wise segmentation of laparoscopic scenes is essential for computer-assisted surgery but difficult to scale due to the high cost of dense annotations. We propose depth-guided surgical scene segmentation (DepSeg), a training-free framework that utilizes monocular depth as a geometric prior together with pretrained vision foundation models. DepSeg first estimates a relative depth map with a pretrained monocular depth estimation network and proposes depth-guided point prompts, which SAM2 converts into class-agnostic masks. Each mask is then described by a pooled pretrained visual feature and classified via template matching against a template bank built from annotated frames. On the CholecSeg8k dataset, DepSeg improves over a direct SAM2 auto segmentation baseline (35.9% vs. 14.7% mIoU) and maintains competitive performance even when using only 10--20% of the object templates. These results show that depth-guided prompting and template-based classification offer an annotation-efficient segmentation approach.
- Abstract(参考訳): 画像による腹腔鏡的シーンのセグメンテーションは、コンピュータ支援手術には不可欠であるが、高コストの高濃度アノテーションのために拡張が困難である。
本稿では,単眼深度を幾何学的前駆体として活用するトレーニングフリーフレームワークDepSegについて,事前学習した視覚基盤モデルとともに提案する。
DepSegはまず、事前訓練された単眼深度推定ネットワークを用いて相対深度マップを推定し、SAM2がクラスに依存しないマスクに変換する深度誘導点プロンプトを提案する。
それぞれのマスクは予め訓練された視覚的特徴によって記述され、アノテーション付きフレームから構築されたテンプレートバンクに対してテンプレートマッチングによって分類される。
CholecSeg8kデータセットでは、DepSegはSAM2オートセグメンテーションベースライン(35.9%対14.7% mIoU)を直接改善し、オブジェクトテンプレートの10~20%しか使用していない場合でも、競合性能を維持している。
これらの結果は、深度誘導プロンプトとテンプレートベースの分類がアノテーション効率のセグメンテーションアプローチを提供することを示している。
関連論文リスト
- Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Pathological Primitive Segmentation Based on Visual Foundation Model with Zero-Shot Mask Generation [3.5177988631063486]
本稿では,SAMの学習済み自然画像エンコーダを検出ベース領域提案に適用する手法を提案する。
SAMというベースフレームワーク全体は、追加のトレーニングや微調整を必要としないが、病理学における2つの基本的なセグメンテーションタスクに対してエンドツーエンドの結果をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-04-12T16:29:49Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - SemHint-MD: Learning from Noisy Semantic Labels for Self-Supervised
Monocular Depth Estimation [19.229255297016635]
自己教師付き深度推定は、光度損失の勾配-局所性の問題により、局所的に最小限に抑えられる。
セマンティックセグメンテーションを活用して、ネットワークを局所的な最小限から切り離すための奥行きを高めるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T17:20:27Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - MPASNET: Motion Prior-Aware Siamese Network for Unsupervised Deep Crowd
Segmentation in Video Scenes [4.320516092029466]
クラウドセマンティックセグメンテーションのためのMotion Prior-Aware Siamese Network (MPASNET)を提案する。
まず,フレーム間のコヒーレントな動きパターンを分析し,集合粒子に円形領域マージ戦略を適用し,擬似ラベルを生成する。
私達のモデルはmIoUの点では先端を12%以上上回ります。
論文 参考訳(メタデータ) (2021-01-21T13:55:29Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。