論文の概要: Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion
- arxiv url: http://arxiv.org/abs/2601.12224v1
- Date: Sun, 18 Jan 2026 02:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.510617
- Title: Where It Moves, It Matters: Referring Surgical Instrument Segmentation via Motion
- Title(参考訳): 運動する場所:運動による手術器具のセグメンテーションを参照
- Authors: Meng Wei, Kun Yuan, Shi Li, Yue Zhou, Long Bai, Nassir Navab, Hongliang Ren, Hong Joo Lee, Tom Vercauteren, Nicolas Padoy,
- Abstract要約: SurgRefは、自由形式の言語表現を楽器の動きに基礎を置くモーションガイドフレームワークである。
SurgRefをトレーニングし,評価するために,高密度時間マスクとリッチモーション表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
- 参考スコア(独自算出の注目度): 54.359489807885616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling intuitive, language-driven interaction with surgical scenes is a critical step toward intelligent operating rooms and autonomous surgical robotic assistance. However, the task of referring segmentation, localizing surgical instruments based on natural language descriptions, remains underexplored in surgical videos, with existing approaches struggling to generalize due to reliance on static visual cues and predefined instrument names. In this work, we introduce SurgRef, a novel motion-guided framework that grounds free-form language expressions in instrument motion, capturing how tools move and interact across time, rather than what they look like. This allows models to understand and segment instruments even under occlusion, ambiguity, or unfamiliar terminology. To train and evaluate SurgRef, we present Ref-IMotion, a diverse, multi-institutional video dataset with dense spatiotemporal masks and rich motion-centric expressions. SurgRef achieves state-of-the-art accuracy and generalization across surgical procedures, setting a new benchmark for robust, language-driven surgical video segmentation.
- Abstract(参考訳): 手術シーンとの直感的で言語による対話を実現することは、インテリジェントな手術室と自律的な手術ロボット支援への重要なステップである。
しかし, 言語記述に基づく外科的機器の局所化という課題は, 現状では静的な視覚的手がかりや予め定義された楽器名に頼って, 一般化に苦慮している。
本研究では,楽器の動きに自由形式の言語表現を基盤として,ツールの動作やインタラクションを時間とともに把握する,新たな動き誘導フレームワークであるSurgRefを紹介する。
これにより、オクルージョン、曖昧さ、または馴染みの無い用語の下でも、模型は楽器を理解し、セグメント化することができる。
SurgRefをトレーニングし,評価するために,高密度の時空間マスクとリッチな動き中心表現を備えた多機能ビデオデータセットRef-IMotionを提案する。
SurgRefは、手術手順全体にわたる最先端の精度と一般化を実現し、堅牢で言語駆動の手術ビデオセグメンテーションのための新しいベンチマークを設定している。
関連論文リスト
- GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation [1.9981885081131854]
GroundedSurgは、最初の言語で条件付き、インスタンスレベルの手術的接地ベンチマークである。
データセットは眼科、腹腔鏡、ロボティクス、オープンプロシージャにまたがっており、様々な機器の種類、撮像条件、手術の複雑さを含んでいる。
論文 参考訳(メタデータ) (2026-03-01T13:49:53Z) - Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes [0.5146940511526402]
本研究は,3次元音響情報を統合することにより,手術シーンの表現性を高めることを目的とする。
手術シーンの4次元映像表現を生成するための新しい枠組みを提案する。
提案するフレームワークにより,コンテキスト理解の充実が図られ,今後のインテリジェントな手術システムの基礎となる。
論文 参考訳(メタデータ) (2025-10-28T11:55:45Z) - SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation [4.97436124491469]
本稿では,大規模言語モデル(LLM)の推論機能と,オープンセットVFMの認識機能を統合する,音声誘導協調認識フレームワークを提案する。
このフレームワークの重要な構成要素は、VFM生成セグメンテーションの上位候補を生成する協調認識エージェントである。
楽器自体がインタラクティブなポインタとして機能し、手術シーンの要素をラベル付けします。
論文 参考訳(メタデータ) (2025-09-12T23:36:52Z) - SurgTPGS: Semantic 3D Surgical Scene Understanding with Text Promptable Gaussian Splatting [45.16104996137126]
本稿では,このギャップを埋めるために,新しいテキストプロンプタブルなガウス分割法であるSurgTPGSを提案する。
本研究では,意味的特徴のシームレスな変形を捉え,テクスチャと意味的特徴の双方をより正確に再構築する意味認識変形追跡法を提案する。
本研究では,SurgTPGSの最先端技術に対する優位性を示すために,実世界の2つの外科的データセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2025-06-29T15:55:01Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition [51.222684687924215]
HecVLは、一般的な手術モデルを構築するための新しい階層型ビデオ言語事前学習手法である。
異なる階層レベルの埋め込み空間を分離することにより、学習されたマルチモーダル表現は、同じモデルにおける短期的および長期的な外科的概念を符号化する。
外科的位相認識のための同じHecVLモデルが、異なる外科手術と医療センター間で転送可能であることを示す。
論文 参考訳(メタデータ) (2024-05-16T13:14:43Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Text Promptable Surgical Instrument Segmentation with Vision-Language
Models [16.203166812021045]
そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-15T16:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。