Fugu-MT 論文翻訳(概要): Surgical Triplet Recognition via Diffusion Model

論文の概要: Surgical Triplet Recognition via Diffusion Model

arxiv url: http://arxiv.org/abs/2406.13210v2
Date: Mon, 24 Jun 2024 08:22:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 23:54:21.192085
Title: Surgical Triplet Recognition via Diffusion Model
Title（参考訳）: 拡散モデルによる手術用トリプルト認識
Authors: Daochang Liu, Axel Hu, Mubarak Shah, Chang Xu,
Abstract要約: 外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。 CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
参考スコア（独自算出の注目度）: 59.50938852117371
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Surgical triplet recognition is an essential building block to enable next-generation context-aware operating rooms. The goal is to identify the combinations of instruments, verbs, and targets presented in surgical video frames. In this paper, we propose DiffTriplet, a new generative framework for surgical triplet recognition employing the diffusion model, which predicts surgical triplets via iterative denoising. To handle the challenge of triplet association, two unique designs are proposed in our diffusion framework, i.e., association learning and association guidance. During training, we optimize the model in the joint space of triplets and individual components to capture the dependencies among them. At inference, we integrate association constraints into each update of the iterative denoising process, which refines the triplet prediction using the information of individual components. Experiments on the CholecT45 and CholecT50 datasets show the superiority of the proposed method in achieving a new state-of-the-art performance for surgical triplet recognition. Our codes will be released.
Abstract（参考訳）: 外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。目的は、手術用ビデオフレームに表示される楽器、動詞、ターゲットの組み合わせを特定することである。本稿では,拡散モデルを用いた手術三重項認識のための新しい生成フレームワークであるDiffTripletを提案する。三重項結合の課題に対処するために, 拡散フレームワーク, すなわち, 関連学習と関連指導において, 2つのユニークな設計が提案されている。トレーニング中、三重項と個々のコンポーネントの結合空間におけるモデルを最適化し、それらの間の依存関係をキャプチャする。推論の際には,各成分の情報を用いて三重項予測を洗練させる反復的認知過程の更新に関連性制約を組み込む。 CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。私たちのコードは解放されます。

関連論文リスト

Landmark-Free Preoperative-to-Intraoperative Registration in Laparoscopic Liver Resection [50.388465935739376]
術前の3Dモデルを術中2Dフレームにオーバーレイすることで肝臓の空間解剖を明瞭に把握し,より高い手術成功率を達成することができる。既存の登録法は解剖学的ランドマークに大きく依存しており、2つの大きな制限に直面している。本稿では,効果的な自己教師型学習を生かした,目覚ましくない術前・術中登録フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-21T14:55:57Z)
fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models [3.8352069691069084]
本稿では,三重項定式化におけるオブジェクト中心の特徴とレバー年齢を学習するファインCLIPを提案する。 fine-CLIPはF1およびmAPの著明な改善を示し、新規な手術三重項のゼロショット認識を増強した。
論文参考訳（メタデータ） (2025-03-25T13:57:02Z)
Intraoperative Registration by Cross-Modal Inverse Neural Rendering [61.687068931599846]
クロスモーダル逆ニューラルレンダリングによる神経外科手術における術中3D/2Dレジストレーションのための新しいアプローチを提案する。本手法では,暗黙の神経表現を2つの構成要素に分離し,術前および術中における解剖学的構造について検討した。臨床症例の振り返りデータを用いて本法の有効性を検証し,現在の登録基準を満たした状態での最先端の検査成績を示した。
論文参考訳（メタデータ） (2024-09-18T13:40:59Z)
LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation [14.152207010509763]
ステレオ画像とテンポラル画像の位置情報を併用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。我々は3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2024-09-14T08:17:56Z)
Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2023-07-07T12:00:38Z)
Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文参考訳（メタデータ） (2023-03-31T10:53:24Z)
CholecTriplet2022: Show me a tool and tell me the triplet -- an endoscopic vision challenge for surgical action triplet detection [41.66666272822756]
本稿では,ColecTriplet2022の課題について述べる。キーアクターとして、すべての可視的手術器具(または道具)の弱い調整されたバウンディングボックスローカライゼーションと、楽器、動詞、ターゲット>三重奏の形式での各ツール活性のモデリングを含む。
論文参考訳（メタデータ） (2023-02-13T11:53:14Z)
Rendezvous in Time: An Attention-based Temporal Fusion approach for Surgical Triplet Recognition [5.033722555649178]
外科的AIの最近の進歩の1つは、外科的活動が三重項(具体的、動詞的、目的)として認識されていることである。初期のフレームから時間的手がかりを爆発させることで、ビデオからの手術行動三重項の認識が向上する。本稿では,Rendezvous in Time(RiT)を提案する。これは最先端のモデルであるRendezvousを拡張したディープラーニングモデルである。
論文参考訳（メタデータ） (2022-11-30T13:18:07Z)
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。 4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文参考訳（メタデータ） (2022-04-10T18:51:55Z)
Rendezvous: Attention Mechanisms for the Recognition of Surgical Action Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文参考訳（メタデータ） (2021-09-07T17:52:52Z)
Contrastive Triple Extraction with Generative Transformer [72.21467482853232]
生成変換器を用いた新しい3重抽出モデルを提案する。具体的には,エンコーダデコーダをベースとした1つの共有トランスフォーマモジュールを提案する。忠実な結果を得るために,新しい三重項コントラストトレーニングオブジェクトを提案する。
論文参考訳（メタデータ） (2020-09-14T05:29:24Z)
Recognition of Instrument-Tissue Interactions in Endoscopic Videos via Action Triplets [9.517537672430006]
ツール活動を表すアクション三重奏楽器,動詞,ターゲット>としてモデル化された,きめ細かい活動の認識に取り組む。公開データセットであるColec80から40本のビデオで構成され、128のトリプルトクラスを使用してすべてのフレームを注釈付けした新しい腹腔鏡データセットColecT40を紹介した。
論文参考訳（メタデータ） (2020-07-10T14:17:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。