論文の概要: Surgical Triplet Recognition via Diffusion Model
- arxiv url: http://arxiv.org/abs/2406.13210v1
- Date: Wed, 19 Jun 2024 04:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:19:11.901592
- Title: Surgical Triplet Recognition via Diffusion Model
- Title(参考訳): 拡散モデルによる手術用トリプルト認識
- Authors: Daochang Liu, Xintao Hu, Mubarak Shah, Chang Xu,
- Abstract要約: 外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
- 参考スコア(独自算出の注目度): 60.766609473275075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical triplet recognition is an essential building block to enable next-generation context-aware operating rooms. The goal is to identify the combinations of instruments, verbs, and targets presented in surgical video frames. In this paper, we propose DiffTriplet, a new generative framework for surgical triplet recognition employing the diffusion model, which predicts surgical triplets via iterative denoising. To handle the challenge of triplet association, two unique designs are proposed in our diffusion framework, i.e., association learning and association guidance. During training, we optimize the model in the joint space of triplets and individual components to capture the dependencies among them. At inference, we integrate association constraints into each update of the iterative denoising process, which refines the triplet prediction using the information of individual components. Experiments on the CholecT45 and CholecT50 datasets show the superiority of the proposed method in achieving a new state-of-the-art performance for surgical triplet recognition. Our codes will be released.
- Abstract(参考訳): 外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
目的は、手術用ビデオフレームに表示される楽器、動詞、ターゲットの組み合わせを特定することである。
本稿では,拡散モデルを用いた手術三重項認識のための新しい生成フレームワークであるDiffTripletを提案する。
三重項結合の課題に対処するために, 拡散フレームワーク, すなわち, 関連学習と関連指導において, 2つのユニークな設計が提案されている。
トレーニング中、三重項と個々のコンポーネントの結合空間におけるモデルを最適化し、それらの間の依存関係をキャプチャする。
推論の際には,各成分の情報を用いて三重項予測を洗練させる反復的認知過程の更新に関連性制約を組み込む。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
私たちのコードは解放されます。
関連論文リスト
- Surgical Text-to-Image Generation [1.958913666074613]
手術領域に対するテキスト・ツー・イメージ生成モデルの適用について,詳細な解析を行った。
様々な言語モデルについて検討し,T5は三重項に基づくテキスト入力に基づく手術動作の識別に,より明確な特徴を提供する。
我々は,3重項に基づくテキストプロンプトから,フォトリアリスティックかつ活動対応の手術画像を生成する手術画像nを開発した。
論文 参考訳(メタデータ) (2024-07-12T12:49:11Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - CholecTriplet2022: Show me a tool and tell me the triplet -- an
endoscopic vision challenge for surgical action triplet detection [41.66666272822756]
本稿では,ColecTriplet2022の課題について述べる。
キーアクターとして、すべての可視的手術器具(または道具)の弱い調整されたバウンディングボックスローカライゼーションと、楽器、動詞、ターゲット>三重奏の形式での各ツール活性のモデリングを含む。
論文 参考訳(メタデータ) (2023-02-13T11:53:14Z) - Rendezvous in Time: An Attention-based Temporal Fusion approach for
Surgical Triplet Recognition [5.033722555649178]
外科的AIの最近の進歩の1つは、外科的活動が三重項(具体的、動詞的、目的)として認識されていることである。
初期のフレームから時間的手がかりを爆発させることで、ビデオからの手術行動三重項の認識が向上する。
本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを拡張したディープラーニングモデルである。
論文 参考訳(メタデータ) (2022-11-30T13:18:07Z) - Repurposing Knowledge Graph Embeddings for Triple Representation via
Weak Supervision [77.34726150561087]
現在の方法では、事前訓練されたモデルからの実体と述語埋め込みを使わずに、スクラッチから三重埋め込みを学習する。
本研究では,知識グラフからトリプルを自動抽出し,事前学習した埋め込みモデルからそれらのペアの類似性を推定する手法を開発した。
これらのペアの類似度スコアは、細い三重表現のためにシームズ様のニューラルネットワークに供給される。
論文 参考訳(メタデータ) (2022-08-22T14:07:08Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - Contrastive Triple Extraction with Generative Transformer [72.21467482853232]
生成変換器を用いた新しい3重抽出モデルを提案する。
具体的には,エンコーダデコーダをベースとした1つの共有トランスフォーマモジュールを提案する。
忠実な結果を得るために,新しい三重項コントラストトレーニングオブジェクトを提案する。
論文 参考訳(メタデータ) (2020-09-14T05:29:24Z) - Recognition of Instrument-Tissue Interactions in Endoscopic Videos via
Action Triplets [9.517537672430006]
ツール活動を表すアクション三重奏楽器,動詞,ターゲット>としてモデル化された,きめ細かい活動の認識に取り組む。
公開データセットであるColec80から40本のビデオで構成され、128のトリプルトクラスを使用してすべてのフレームを注釈付けした新しい腹腔鏡データセットColecT40を紹介した。
論文 参考訳(メタデータ) (2020-07-10T14:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。