論文の概要: Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion
- arxiv url: http://arxiv.org/abs/2601.12224v1
- Date: Sun, 18 Jan 2026 02:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.510617
- Title: Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion
- Title(参考訳): 運動する場所:運動による手術器具のセグメンテーションを参照
- Authors: Meng Wei, Kun Yuan, Shi Li, Yue Zhou, Long Bai, Nassir Navab, Hongliang Ren, Hong Joo Lee, Tom Vercauteren, Nicolas Padoy,
- Abstract要約: SurgRefは、自由形式の言語表現を楽器の動きに基礎を置くモーションガイドフレームワークである。
SurgRefをトレーニングし,評価するために,高密度時間マスクとリッチモーション表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
- 参考スコア(独自算出の注目度): 54.359489807885616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling intuitive, language-driven interaction with surgical scenes is a critical step toward intelligent operating rooms and autonomous surgical robotic assistance. However, the task of referring segmentation, localizing surgical instruments based on natural language descriptions, remains underexplored in surgical videos, with existing approaches struggling to generalize due to reliance on static visual cues and predefined instrument names. In this work, we introduce SurgRef, a novel motion-guided framework that grounds free-form language expressions in instrument motion, capturing how tools move and interact across time, rather than what they look like. This allows models to understand and segment instruments even under occlusion, ambiguity, or unfamiliar terminology. To train and evaluate SurgRef, we present Ref-IMotion, a diverse, multi-institutional video dataset with dense spatiotemporal masks and rich motion-centric expressions. SurgRef achieves state-of-the-art accuracy and generalization across surgical procedures, setting a new benchmark for robust, language-driven surgical video segmentation.
- Abstract(参考訳): 手術シーンとの直感的で言語による対話を実現することは、インテリジェントな手術室と自律的な手術ロボット支援への重要なステップである。
しかし, 言語記述に基づく外科的機器の局所化という課題は, 現状では静的な視覚的手がかりや予め定義された楽器名に頼って, 一般化に苦慮している。
本研究では,楽器の動きに自由形式の言語表現を基盤として,ツールの動作やインタラクションを時間とともに把握する,新たな動き誘導フレームワークであるSurgRefを紹介する。
これにより、オクルージョン、曖昧さ、または馴染みの無い用語の下でも、模型は楽器を理解し、セグメント化することができる。
SurgRefをトレーニングし,評価するために,高密度の時空間マスクとリッチな動き中心表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
SurgRefは、手術手順全体にわたる最先端の精度と一般化を実現し、堅牢で言語駆動の手術ビデオセグメンテーションのための新しいベンチマークを設定している。
関連論文リスト
- Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes [0.5146940511526402]
本研究は,3次元音響情報を統合することにより,手術シーンの表現性を高めることを目的とする。
手術シーンの4次元映像表現を生成するための新しい枠組みを提案する。
提案するフレームワークにより,コンテキスト理解の充実が図られ,今後のインテリジェントな手術システムの基礎となる。
論文 参考訳(メタデータ) (2025-10-28T11:55:45Z) - SurgTPGS: Semantic 3D Surgical Scene Understanding with Text Promptable Gaussian Splatting [45.16104996137126]
本稿では,このギャップを埋めるために,新しいテキストプロンプタブルなガウス分割法であるSurgTPGSを提案する。
本研究では,意味的特徴のシームレスな変形を捉え,テクスチャと意味的特徴の双方をより正確に再構築する意味認識変形追跡法を提案する。
本研究では,SurgTPGSの最先端技術に対する優位性を示すために,実世界の2つの外科的データセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2025-06-29T15:55:01Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。