論文の概要: Surgical Triplet Recognition via Diffusion Model
- arxiv url: http://arxiv.org/abs/2406.13210v2
- Date: Mon, 24 Jun 2024 08:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:54:21.192085
- Title: Surgical Triplet Recognition via Diffusion Model
- Title(参考訳): 拡散モデルによる手術用トリプルト認識
- Authors: Daochang Liu, Axel Hu, Mubarak Shah, Chang Xu,
- Abstract要約: 外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
- 参考スコア(独自算出の注目度): 59.50938852117371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical triplet recognition is an essential building block to enable next-generation context-aware operating rooms. The goal is to identify the combinations of instruments, verbs, and targets presented in surgical video frames. In this paper, we propose DiffTriplet, a new generative framework for surgical triplet recognition employing the diffusion model, which predicts surgical triplets via iterative denoising. To handle the challenge of triplet association, two unique designs are proposed in our diffusion framework, i.e., association learning and association guidance. During training, we optimize the model in the joint space of triplets and individual components to capture the dependencies among them. At inference, we integrate association constraints into each update of the iterative denoising process, which refines the triplet prediction using the information of individual components. Experiments on the CholecT45 and CholecT50 datasets show the superiority of the proposed method in achieving a new state-of-the-art performance for surgical triplet recognition. Our codes will be released.
- Abstract(参考訳): 外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
目的は、手術用ビデオフレームに表示される楽器、動詞、ターゲットの組み合わせを特定することである。
本稿では,拡散モデルを用いた手術三重項認識のための新しい生成フレームワークであるDiffTripletを提案する。
三重項結合の課題に対処するために, 拡散フレームワーク, すなわち, 関連学習と関連指導において, 2つのユニークな設計が提案されている。
トレーニング中、三重項と個々のコンポーネントの結合空間におけるモデルを最適化し、それらの間の依存関係をキャプチャする。
推論の際には,各成分の情報を用いて三重項予測を洗練させる反復的認知過程の更新に関連性制約を組み込む。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
私たちのコードは解放されます。
関連論文リスト
- Intraoperative Registration by Cross-Modal Inverse Neural Rendering [61.687068931599846]
クロスモーダル逆ニューラルレンダリングによる神経外科手術における術中3D/2Dレジストレーションのための新しいアプローチを提案する。
本手法では,暗黙の神経表現を2つの構成要素に分離し,術前および術中における解剖学的構造について検討した。
臨床症例の振り返りデータを用いて本法の有効性を検証し,現在の登録基準を満たした状態での最先端の検査成績を示した。
論文 参考訳(メタデータ) (2024-09-18T13:40:59Z) - LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation [14.152207010509763]
ステレオ画像とテンポラル画像の位置情報を併用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。
我々は3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2024-09-14T08:17:56Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - CholecTriplet2022: Show me a tool and tell me the triplet -- an
endoscopic vision challenge for surgical action triplet detection [41.66666272822756]
本稿では,ColecTriplet2022の課題について述べる。
キーアクターとして、すべての可視的手術器具(または道具)の弱い調整されたバウンディングボックスローカライゼーションと、楽器、動詞、ターゲット>三重奏の形式での各ツール活性のモデリングを含む。
論文 参考訳(メタデータ) (2023-02-13T11:53:14Z) - Rendezvous in Time: An Attention-based Temporal Fusion approach for
Surgical Triplet Recognition [5.033722555649178]
外科的AIの最近の進歩の1つは、外科的活動が三重項(具体的、動詞的、目的)として認識されていることである。
初期のフレームから時間的手がかりを爆発させることで、ビデオからの手術行動三重項の認識が向上する。
本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを拡張したディープラーニングモデルである。
論文 参考訳(メタデータ) (2022-11-30T13:18:07Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - Contrastive Triple Extraction with Generative Transformer [72.21467482853232]
生成変換器を用いた新しい3重抽出モデルを提案する。
具体的には,エンコーダデコーダをベースとした1つの共有トランスフォーマモジュールを提案する。
忠実な結果を得るために,新しい三重項コントラストトレーニングオブジェクトを提案する。
論文 参考訳(メタデータ) (2020-09-14T05:29:24Z) - Recognition of Instrument-Tissue Interactions in Endoscopic Videos via
Action Triplets [9.517537672430006]
ツール活動を表すアクション三重奏楽器,動詞,ターゲット>としてモデル化された,きめ細かい活動の認識に取り組む。
公開データセットであるColec80から40本のビデオで構成され、128のトリプルトクラスを使用してすべてのフレームを注釈付けした新しい腹腔鏡データセットColecT40を紹介した。
論文 参考訳(メタデータ) (2020-07-10T14:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。