論文の概要: Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos
- arxiv url: http://arxiv.org/abs/2109.03223v1
- Date: Tue, 7 Sep 2021 17:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:34:56.390132
- Title: Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos
- Title(参考訳): rendezvous : 内視鏡ビデオにおける手術動作の三重項認識のための注意機構
- Authors: Chinedu Innocent Nwoye, Tong Yu, Cristians Gonzalez, Barbara Seeliger,
Pietro Mascagni, Didier Mutter, Jacques Marescaux, Nicolas Padoy
- Abstract要約: アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
- 参考スコア(独自算出の注目度): 12.725586100227337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Out of all existing frameworks for surgical workflow analysis in endoscopic
videos, action triplet recognition stands out as the only one aiming to provide
truly fine-grained and comprehensive information on surgical activities. This
information, presented as <instrument, verb, target> combinations, is highly
challenging to be accurately identified. Triplet components can be difficult to
recognize individually; in this task, it requires not only performing
recognition simultaneously for all three triplet components, but also correctly
establishing the data association between them. To achieve this task, we
introduce our new model, the Rendezvous (RDV), which recognizes triplets
directly from surgical videos by leveraging attention at two different levels.
We first introduce a new form of spatial attention to capture individual action
triplet components in a scene; called the Class Activation Guided Attention
Mechanism (CAGAM). This technique focuses on the recognition of verbs and
targets using activations resulting from instruments. To solve the association
problem, our RDV model adds a new form of semantic attention inspired by
Transformer networks. Using multiple heads of cross and self attentions, RDV is
able to effectively capture relationships between instruments, verbs, and
targets. We also introduce CholecT50 - a dataset of 50 endoscopic videos in
which every frame has been annotated with labels from 100 triplet classes. Our
proposed RDV model significantly improves the triplet prediction mAP by over 9%
compared to the state-of-the-art methods on this dataset.
- Abstract(参考訳): 内視鏡ビデオにおける手術ワークフロー分析のための既存のフレームワークの中で、アクショントリプレット認識は、手術活動に関する真に詳細に包括的な情報を提供することを目的とした唯一のフレームワークである。
この情報は,<instrument, verb, target> combinationsとして提示され,正確に識別することは極めて困難である。
このタスクでは、3つの三重項成分すべてに対して同時に認識を行うだけでなく、それらの間のデータ関連性を正しく確立する必要がある。
この課題を達成するために,2つの異なるレベルの注意を生かして,手術ビデオから直接三脚を認識する新しいモデルであるRendezvous(RDV)を紹介した。
まず、シーン内の個々のアクショントリプレットコンポーネントをキャプチャする新しいタイプの空間的注意機構、class activation guided attention mechanism(cagam)を導入する。
この技術は、楽器によるアクティベーションを用いた動詞とターゲットの認識に焦点を当てている。
関連問題を解決するため、RDVモデルはトランスフォーマーネットワークにインスパイアされた新しい意味的注意を付加する。
クロスアテンションとセルフアテンションの複数の頭を用いて、RDVは楽器、動詞、ターゲット間の関係を効果的に捉えることができる。
また,各フレームに100個のトリプレットクラスのラベルを付記した50本の内視鏡映像のデータセットである cholect50 も紹介する。
提案したRDVモデルは,このデータセットの最先端手法と比較して,3重項予測mAPを9%以上改善する。
関連論文リスト
- Surgical Triplet Recognition via Diffusion Model [59.50938852117371]
外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-06-19T04:43:41Z) - Surgical Action Triplet Detection by Mixed Supervised Learning of
Instrument-Tissue Interactions [5.033722555649178]
手術的三重奏法(英: surgery action triplet)は、楽器と音の相互作用を(構成、動詞、ターゲット)の組み合わせとして記述する。
この研究は、従来の三重項認識タスクよりも難しいが正確である外科的三重項検出に焦点を当てている。
マルチクラス・インスツルメンツ・アウェア・トランスフォーマー・インタラクショングラフの2段階ネットワークであるMCIT-IGを提案する。
論文 参考訳(メタデータ) (2023-07-18T18:47:48Z) - Rendezvous in Time: An Attention-based Temporal Fusion approach for
Surgical Triplet Recognition [5.033722555649178]
外科的AIの最近の進歩の1つは、外科的活動が三重項(具体的、動詞的、目的)として認識されていることである。
初期のフレームから時間的手がかりを爆発させることで、ビデオからの手術行動三重項の認識が向上する。
本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを拡張したディープラーニングモデルである。
論文 参考訳(メタデータ) (2022-11-30T13:18:07Z) - Triple-View Feature Learning for Medical Image Segmentation [9.992387025633805]
TriSegNetは半教師付きセマンティックセグメンテーションフレームワークである。
ラベル付けされたデータの限られた量と、ラベル付けされていない大量のデータに基づいて、トリプルビューの特徴学習を使用する。
論文 参考訳(メタデータ) (2022-08-12T14:41:40Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Recognition of Instrument-Tissue Interactions in Endoscopic Videos via
Action Triplets [9.517537672430006]
ツール活動を表すアクション三重奏楽器,動詞,ターゲット>としてモデル化された,きめ細かい活動の認識に取り組む。
公開データセットであるColec80から40本のビデオで構成され、128のトリプルトクラスを使用してすべてのフレームを注釈付けした新しい腹腔鏡データセットColecT40を紹介した。
論文 参考訳(メタデータ) (2020-07-10T14:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。