論文の概要: Instrument-tissue Interaction Detection Framework for Surgical Video Understanding
- arxiv url: http://arxiv.org/abs/2404.00322v1
- Date: Sat, 30 Mar 2024 11:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:20:25.953167
- Title: Instrument-tissue Interaction Detection Framework for Surgical Video Understanding
- Title(参考訳): 手術映像理解のための機器間相互作用検出フレームワーク
- Authors: Wenjun Lin, Yan Hu, Huazhu Fu, Mingming Yang, Chin-Boon Chng, Ryo Kawasaki, Cheekong Chui, Jiang Liu,
- Abstract要約: 本稿では,手術ビデオ理解のための機器間相互作用検出ネットワーク(ITIDNet)を提案する。
具体的には,Snippet Consecutive Feature (SCF) レイヤを提案し,ビデオスニペット内のグローバルコンテキスト情報を用いて,現在のフレームにおける提案の関連性をモデル化することによって機能を強化する。
楽器と組織間の関係を推論するために、同じフレーム内の楽器と組織間の関係と、同じインスタンスの時間情報をモデル化するためのフレーム間関係を利用するための時間グラフ(TG)層が提案されている。
- 参考スコア(独自算出の注目度): 31.822025965225016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instrument-tissue interaction detection task, which helps understand surgical activities, is vital for constructing computer-assisted surgery systems but with many challenges. Firstly, most models represent instrument-tissue interaction in a coarse-grained way which only focuses on classification and lacks the ability to automatically detect instruments and tissues. Secondly, existing works do not fully consider relations between intra- and inter-frame of instruments and tissues. In the paper, we propose to represent instrument-tissue interaction as <instrument class, instrument bounding box, tissue class, tissue bounding box, action class> quintuple and present an Instrument-Tissue Interaction Detection Network (ITIDNet) to detect the quintuple for surgery videos understanding. Specifically, we propose a Snippet Consecutive Feature (SCF) Layer to enhance features by modeling relationships of proposals in the current frame using global context information in the video snippet. We also propose a Spatial Corresponding Attention (SCA) Layer to incorporate features of proposals between adjacent frames through spatial encoding. To reason relationships between instruments and tissues, a Temporal Graph (TG) Layer is proposed with intra-frame connections to exploit relationships between instruments and tissues in the same frame and inter-frame connections to model the temporal information for the same instance. For evaluation, we build a cataract surgery video (PhacoQ) dataset and a cholecystectomy surgery video (CholecQ) dataset. Experimental results demonstrate the promising performance of our model, which outperforms other state-of-the-art models on both datasets.
- Abstract(参考訳): 手術活動の理解を支援する機器間相互作用検出タスクは,コンピュータ支援手術システムの構築には不可欠だが,多くの課題がある。
第一に、ほとんどのモデルは、分類のみに焦点を絞った粗い方法で、楽器と組織を自動で検出する能力に欠ける、計器間の相互作用を表す。
第二に、既存の作品では、楽器と組織のフレーム内と組織間の関係を十分に考慮していない。
そこで本論文では,<instrument class, instrument bounding box, tissue class, tissue bounding box, action class> quintupleとして計器間相互作用を表現し,手術ビデオ理解のための計器間相互作用検出ネットワーク(ITIDNet)を提案する。
具体的には,Snippet Consecutive Feature (SCF) レイヤを提案し,ビデオスニペット内の大域的コンテキスト情報を用いて,現在のフレームにおける提案の関係をモデル化することによって機能を強化する。
また、隣接フレーム間の空間符号化による提案の特徴を取り入れた空間対応注意層(SCA)を提案する。
楽器と組織間の関係を推論するために、同じフレーム内の楽器と組織間の関係と、同じインスタンスの時間情報をモデル化するためのフレーム間関係を利用するための時間グラフ(TG)層が提案されている。
評価のために,白内障手術ビデオ(PhacoQ)データセットと胆嚢摘出手術ビデオ(CholecQ)データセットを構築した。
実験の結果,両データセットにおける他の最先端モデルよりも優れた性能を示すことができた。
関連論文リスト
- Data Augmentation for Surgical Scene Segmentation with Anatomy-Aware Diffusion Models [1.9085155846692308]
アノテーションを用いた多段階手術データセットを生成するための多段階的アプローチを提案する。
本フレームワークは,二分節マスクを応用した臓器特異的モデルの訓練により,解剖学的意識の向上を図る。
この汎用的なアプローチにより、実際のバイナリデータセットとシミュレートされた手術マスクから、マルチクラスのデータセットを生成することができる。
論文 参考訳(メタデータ) (2024-10-10T09:29:23Z) - Exploring Optical Flow Inclusion into nnU-Net Framework for Surgical Instrument Segmentation [1.3444601218847545]
nnU-Netフレームワークは、時間情報なしで単一のフレームを分析するセマンティックセグメンテーションに優れていた。
オプティカルフロー(OF)は、ビデオタスクでよく使われるツールで、動きを推定し、時間情報を含む単一のフレームで表現する。
本研究は,nU-Netアーキテクチャに付加的な入力として,オペレーショナル・インスツルメンテーション・セグメンテーション・タスクの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-03-15T11:36:26Z) - Video-Instrument Synergistic Network for Referring Video Instrument
Segmentation in Robotic Surgery [29.72271827272853]
本研究は,手術用ビデオ機器(RSVIS)の新たな課題を探求する。
与えられた言語表現に基づいて対応する手術器具を自動的に識別・分節することを目的としている。
我々は,ビデオレベルと楽器レベルの両方の知識を学習し,性能を向上させるために,ビデオ機器合成ネットワーク(VIS-Net)を考案した。
論文 参考訳(メタデータ) (2023-08-18T11:24:06Z) - Dynamic Interactive Relation Capturing via Scene Graph Learning for
Robotic Surgical Report Generation [14.711668177329244]
ロボット補助手術の場合、正確な手術報告は手術中の臨床手術を反映し、文書化作業、術後分析、追跡治療を支援する。
手術現場では、楽器と組織の間の多くの複雑で多様な相互作用のため、これは難しい課題である。
本稿では, 組織と手術器具の相互関係を明らかにすることにより, 手術報告生成を促進するニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T07:34:41Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - MURPHY: Relations Matter in Surgical Workflow Analysis [12.460554004034472]
本稿では,手術におけるリレーショナル・キューの重要性を体系的に検討する。
RLLS12Mデータセットは,ロボット左側方切除(RLLS)の大規模コレクションである。
本稿では,特徴表現を増大させるために,新しい関係モジュールを適切に組み込んだMulti-relation purification Hybrid Network (MURPHY)を提案する。
論文 参考訳(メタデータ) (2022-12-24T12:09:38Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Automatic Gesture Recognition in Robot-assisted Surgery with
Reinforcement Learning and Tree Search [63.07088785532908]
共同手術におけるジェスチャー分割と分類のための強化学習と木探索に基づく枠組みを提案する。
我々のフレームワークは,JIGSAWSデータセットのサチューリングタスクにおいて,精度,編集スコア,F1スコアの点で,既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2020-02-20T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。