論文の概要: Video-Instrument Synergistic Network for Referring Video Instrument
Segmentation in Robotic Surgery
- arxiv url: http://arxiv.org/abs/2308.09475v1
- Date: Fri, 18 Aug 2023 11:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:29:12.357254
- Title: Video-Instrument Synergistic Network for Referring Video Instrument
Segmentation in Robotic Surgery
- Title(参考訳): ロボット手術におけるビデオ機器のセグメンテーション参照のためのビデオ機器のシナジスティックネットワーク
- Authors: Hongqiu Wang, Lei Zhu, Guang Yang, Yike Guo, Shichen Zhang, Bo Xu,
Yueming Jin
- Abstract要約: 本研究は,手術用ビデオ機器(RSVIS)の新たな課題を探求する。
与えられた言語表現に基づいて対応する手術器具を自動的に識別・分節することを目的としている。
我々は,ビデオレベルと楽器レベルの両方の知識を学習し,性能を向上させるために,ビデオ機器合成ネットワーク(VIS-Net)を考案した。
- 参考スコア(独自算出の注目度): 29.72271827272853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot-assisted surgery has made significant progress, with instrument
segmentation being a critical factor in surgical intervention quality. It
serves as the building block to facilitate surgical robot navigation and
surgical education for the next generation of operating intelligence. Although
existing methods have achieved accurate instrument segmentation results, they
simultaneously generate segmentation masks for all instruments, without the
capability to specify a target object and allow an interactive experience. This
work explores a new task of Referring Surgical Video Instrument Segmentation
(RSVIS), which aims to automatically identify and segment the corresponding
surgical instruments based on the given language expression. To achieve this,
we devise a novel Video-Instrument Synergistic Network (VIS-Net) to learn both
video-level and instrument-level knowledge to boost performance, while previous
work only used video-level information. Meanwhile, we design a Graph-based
Relation-aware Module (GRM) to model the correlation between multi-modal
information (i.e., textual description and video frame) to facilitate the
extraction of instrument-level information. We are also the first to produce
two RSVIS datasets to promote related research. Our method is verified on these
datasets, and experimental results exhibit that the VIS-Net can significantly
outperform existing state-of-the-art referring segmentation methods. Our code
and our datasets will be released upon the publication of this work.
- Abstract(参考訳): ロボット支援手術は大きな進歩を遂げており、機器のセグメンテーションは外科的介入の質にとって重要な要素である。
次世代のオペレーティングインテリジェンスのための手術ロボットナビゲーションと外科教育を促進するビルディングブロックとして機能している。
既存の手法は正確な計測器のセグメンテーションの結果を達成しているが、対象物を特定して対話的な体験を可能にする機能を持たずに、全ての機器のセグメンテーションマスクを同時に生成する。
本研究は,手術用ビデオ機器分類(RSVIS)の新たな課題を探求し,与えられた言語表現に基づいて対応する手術用機器を自動同定・分節することを目的とする。
そこで我々は,ビデオレベルと楽器レベルの両方の知識を学習し,パフォーマンスを向上させるために,ビデオレベル情報のみを使用する新しいVIS-Netを考案した。
一方,多形態情報(テキスト記述とビデオフレーム)間の相関をモデル化し,楽器レベルの情報の抽出を容易にするグラフベース関係認識モジュール(grm)を設計した。
私たちはまた、関連する研究を促進するために2つのrsvisデータセットを作成しました。
提案手法をこれらのデータセットで検証し, 実験結果から, VIS-Netは既存の最先端参照セグメンテーション手法よりも優れることが示された。
私たちのコードとデータセットは、この研究の公開時にリリースされます。
関連論文リスト
- Amodal Segmentation for Laparoscopic Surgery Video Instruments [30.39518393494816]
医療分野における手術器具の領域にAmodalVisを導入する。
このテクニックは、オブジェクトの可視部と隠蔽部の両方を識別する。
これを実現するために,新しいAmoal Instrumentsデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-02T07:40:34Z) - Instrument-tissue Interaction Detection Framework for Surgical Video Understanding [31.822025965225016]
本稿では,手術ビデオ理解のための機器間相互作用検出ネットワーク(ITIDNet)を提案する。
具体的には,Snippet Consecutive Feature (SCF) レイヤを提案し,ビデオスニペット内のグローバルコンテキスト情報を用いて,現在のフレームにおける提案の関連性をモデル化することによって機能を強化する。
楽器と組織間の関係を推論するために、同じフレーム内の楽器と組織間の関係と、同じインスタンスの時間情報をモデル化するためのフレーム間関係を利用するための時間グラフ(TG)層が提案されている。
論文 参考訳(メタデータ) (2024-03-30T11:21:11Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - Hierarchical Semi-Supervised Learning Framework for Surgical Gesture
Segmentation and Recognition Based on Multi-Modality Data [2.8770761243361593]
多モードデータを用いた外科的ジェスチャー分割のための階層型半教師付き学習フレームワークを開発した。
トレーニング済みのResNet-18'バックボーンを備えたTransformerベースのネットワークを使用して,手術ビデオから視覚的特徴を抽出する。
提案手法は、Suturing, Needle Passing, Knot Tyingタスクを含む、公開されているJIGSデータベースのデータを用いて評価されている。
論文 参考訳(メタデータ) (2023-07-31T21:17:59Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Real-Time Instrument Segmentation in Robotic Surgery using Auxiliary
Supervised Deep Adversarial Learning [15.490603884631764]
ロボット機器と組織のリアルタイムセマンティックセグメンテーションは、ロボット支援手術において重要なステップである。
我々は,高解像度ビデオから手術器具を分割する軽量カスケード畳み込みニューラルネットワーク(CNN)を開発した。
高解像度ビデオの予測精度とセグメンテーション時間の両方において,術具の画素単位のセグメンテーションのための既存のアルゴリズムを超越していることを示す。
論文 参考訳(メタデータ) (2020-07-22T10:16:07Z) - Synthetic and Real Inputs for Tool Segmentation in Robotic Surgery [10.562627972607892]
腹腔鏡画像と組み合わせたロボットキネマティックデータを用いてラベル付け問題を緩和できる可能性が示唆された。
腹腔鏡画像とシミュレーション画像の並列処理のための新しい深層学習モデルを提案する。
論文 参考訳(メタデータ) (2020-07-17T16:33:33Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。