論文の概要: Recognition of Instrument-Tissue Interactions in Endoscopic Videos via
Action Triplets
- arxiv url: http://arxiv.org/abs/2007.05405v1
- Date: Fri, 10 Jul 2020 14:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 21:51:32.392866
- Title: Recognition of Instrument-Tissue Interactions in Endoscopic Videos via
Action Triplets
- Title(参考訳): アクショントリプレットを用いた内視鏡映像における機器間相互作用の認識
- Authors: Chinedu Innocent Nwoye, Cristians Gonzalez, Tong Yu, Pietro Mascagni,
Didier Mutter, Jacques Marescaux and Nicolas Padoy
- Abstract要約: ツール活動を表すアクション三重奏楽器,動詞,ターゲット>としてモデル化された,きめ細かい活動の認識に取り組む。
公開データセットであるColec80から40本のビデオで構成され、128のトリプルトクラスを使用してすべてのフレームを注釈付けした新しい腹腔鏡データセットColecT40を紹介した。
- 参考スコア(独自算出の注目度): 9.517537672430006
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recognition of surgical activity is an essential component to develop
context-aware decision support for the operating room. In this work, we tackle
the recognition of fine-grained activities, modeled as action triplets
<instrument, verb, target> representing the tool activity. To this end, we
introduce a new laparoscopic dataset, CholecT40, consisting of 40 videos from
the public dataset Cholec80 in which all frames have been annotated using 128
triplet classes. Furthermore, we present an approach to recognize these
triplets directly from the video data. It relies on a module called Class
Activation Guide (CAG), which uses the instrument activation maps to guide the
verb and target recognition. To model the recognition of multiple triplets in
the same frame, we also propose a trainable 3D Interaction Space, which
captures the associations between the triplet components. Finally, we
demonstrate the significance of these contributions via several ablation
studies and comparisons to baselines on CholecT40.
- Abstract(参考訳): 手術活動の認識は手術室の文脈認識意思決定支援に欠かせない要素である。
本研究では,ツール活動を表すアクショントリプレット<instrument, verb, target>としてモデル化された,きめ細かい活動の認識に取り組む。
そこで本稿では,公開データセットであるcholec80の40本のビデオからなる新しい腹腔鏡用データセットcholect40を紹介し,全フレームを128個のトリプルトクラスでアノテートした。
さらに,これらの三重項を映像データから直接認識する手法を提案する。
これはClass Activation Guide (CAG)と呼ばれるモジュールに依存しており、楽器のアクティベーションマップを使用して動詞とターゲットの認識をガイドしている。
同一フレームにおける複数の三重項の認識をモデル化するために,三重項成分間の関係を捉える訓練可能な3次元相互作用空間を提案する。
最後に,これらのコントリビューションの意義について,いくつかのアブレーション研究およびColecT40のベースラインとの比較を行った。
関連論文リスト
- Surgical Triplet Recognition via Diffusion Model [59.50938852117371]
外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-06-19T04:43:41Z) - Surgical Action Triplet Detection by Mixed Supervised Learning of
Instrument-Tissue Interactions [5.033722555649178]
手術的三重奏法(英: surgery action triplet)は、楽器と音の相互作用を(構成、動詞、ターゲット)の組み合わせとして記述する。
この研究は、従来の三重項認識タスクよりも難しいが正確である外科的三重項検出に焦点を当てている。
マルチクラス・インスツルメンツ・アウェア・トランスフォーマー・インタラクショングラフの2段階ネットワークであるMCIT-IGを提案する。
論文 参考訳(メタデータ) (2023-07-18T18:47:48Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - CholecTriplet2022: Show me a tool and tell me the triplet -- an
endoscopic vision challenge for surgical action triplet detection [41.66666272822756]
本稿では,ColecTriplet2022の課題について述べる。
キーアクターとして、すべての可視的手術器具(または道具)の弱い調整されたバウンディングボックスローカライゼーションと、楽器、動詞、ターゲット>三重奏の形式での各ツール活性のモデリングを含む。
論文 参考訳(メタデータ) (2023-02-13T11:53:14Z) - Rendezvous in Time: An Attention-based Temporal Fusion approach for
Surgical Triplet Recognition [5.033722555649178]
外科的AIの最近の進歩の1つは、外科的活動が三重項(具体的、動詞的、目的)として認識されていることである。
初期のフレームから時間的手がかりを爆発させることで、ビデオからの手術行動三重項の認識が向上する。
本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを拡張したディープラーニングモデルである。
論文 参考訳(メタデータ) (2022-11-30T13:18:07Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。