論文の概要: Rendezvous in Time: An Attention-based Temporal Fusion approach for
Surgical Triplet Recognition
- arxiv url: http://arxiv.org/abs/2211.16963v2
- Date: Fri, 16 Jun 2023 09:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 18:04:15.858219
- Title: Rendezvous in Time: An Attention-based Temporal Fusion approach for
Surgical Triplet Recognition
- Title(参考訳): 時間内ランデブー:外科的三重項認識のための注意に基づく時間的融合アプローチ
- Authors: Saurav Sharma, Chinedu Innocent Nwoye, Didier Mutter, Nicolas Padoy
- Abstract要約: 外科的AIの最近の進歩の1つは、外科的活動が三重項(具体的、動詞的、目的)として認識されていることである。
初期のフレームから時間的手がかりを爆発させることで、ビデオからの手術行動三重項の認識が向上する。
本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを拡張したディープラーニングモデルである。
- 参考スコア(独自算出の注目度): 5.033722555649178
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One of the recent advances in surgical AI is the recognition of surgical
activities as triplets of (instrument, verb, target). Albeit providing detailed
information for computer-assisted intervention, current triplet recognition
approaches rely only on single frame features. Exploiting the temporal cues
from earlier frames would improve the recognition of surgical action triplets
from videos. In this paper, we propose Rendezvous in Time (RiT) - a deep
learning model that extends the state-of-the-art model, Rendezvous, with
temporal modeling. Focusing more on the verbs, our RiT explores the
connectedness of current and past frames to learn temporal attention-based
features for enhanced triplet recognition. We validate our proposal on the
challenging surgical triplet dataset, CholecT45, demonstrating an improved
recognition of the verb and triplet along with other interactions involving the
verb such as (instrument, verb). Qualitative results show that the RiT produces
smoother predictions for most triplet instances than the state-of-the-arts. We
present a novel attention-based approach that leverages the temporal fusion of
video frames to model the evolution of surgical actions and exploit their
benefits for surgical triplet recognition.
- Abstract(参考訳): 外科的AIの最近の進歩の1つは、外科的活動が三肢(インスルーメント、動詞、ターゲット)として認識されていることである。
コンピュータ支援介入のための詳細な情報を提供するが、現在の三重項認識アプローチは単一のフレームのみに依存している。
初期のフレームからの時間的手がかりを活用すれば、ビデオからの手術的アクショントリプレットの認識が向上する。
本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを時間モデルで拡張したディープラーニングモデルである。
動詞にもっと焦点をあて、現在および過去のフレームの接続性を探求し、時間的注意に基づく特徴を学習し、三重項認識を強化した。
難易度の高い手術用三重項データセット cholect45 の提案を検証し,動詞と三重項の認識の改善と,動詞 (動詞, 動詞) との相互作用について検証した。
定性的な結果は、RiTが最先端の3重項インスタンスよりもスムーズな予測を生成することを示している。
本稿では,ビデオフレームの時間的融合を利用して外科的動作の進化をモデル化し,その利点を手術的三重項認識に活かす新しいアプローチを提案する。
関連論文リスト
- Surgical Triplet Recognition via Diffusion Model [59.50938852117371]
外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-06-19T04:43:41Z) - Tri-modal Confluence with Temporal Dynamics for Scene Graph Generation in Operating Rooms [47.31847567531981]
本稿では、TriTemp-ORと呼ばれる時間動的フレームワークとTri-modal(画像、点雲、言語)の結合を提案する。
我々のモデルは2次元フレームと3次元点雲間の時間的相互作用を行い、スケール適応型多視点時間的相互作用(ViewTemp)と幾何時間的点集合(PointTemp)を含む。
提案したTriTemp-ORは,関係認識統合による三モーダル特徴の集約を可能にし,シーングラフを生成するために関係を予測する。
論文 参考訳(メタデータ) (2024-04-14T12:19:16Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - CholecTriplet2022: Show me a tool and tell me the triplet -- an
endoscopic vision challenge for surgical action triplet detection [41.66666272822756]
本稿では,ColecTriplet2022の課題について述べる。
キーアクターとして、すべての可視的手術器具(または道具)の弱い調整されたバウンディングボックスローカライゼーションと、楽器、動詞、ターゲット>三重奏の形式での各ツール活性のモデリングを含む。
論文 参考訳(メタデータ) (2023-02-13T11:53:14Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。