論文の概要: Grounding Surgical Action Triplets with Instrument Instance Segmentation: A Dataset and Target-Aware Fusion Approach
- arxiv url: http://arxiv.org/abs/2511.00643v1
- Date: Sat, 01 Nov 2025 17:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.875506
- Title: Grounding Surgical Action Triplets with Instrument Instance Segmentation: A Dataset and Target-Aware Fusion Approach
- Title(参考訳): 機器インスタンスセグメンテーションによる接地手術行動トリプレット:データセットとターゲット認識融合アプローチ
- Authors: Oluwatosin Alabi, Meng Wei, Charlie Budd, Tom Vercauteren, Miaojing Shi,
- Abstract要約: CholecTriplet-Segは3万以上の注釈付きフレームを含む大規模データセットで、アクション動詞と解剖学的ターゲットアノテーションと、楽器のインスタンスマスクをリンクし、強く監督されたインスタンスレベルの三重項グラウンドと評価のための最初のベンチマークを確立する。
また,Mask2Formerを拡張した新たなアーキテクチャであるTargetFusionNetを提案する。
- 参考スコア(独自算出の注目度): 16.569535111037315
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding surgical instrument-tissue interactions requires not only identifying which instrument performs which action on which anatomical target, but also grounding these interactions spatially within the surgical scene. Existing surgical action triplet recognition methods are limited to learning from frame-level classification, failing to reliably link actions to specific instrument instances.Previous attempts at spatial grounding have primarily relied on class activation maps, which lack the precision and robustness required for detailed instrument-tissue interaction analysis.To address this gap, we propose grounding surgical action triplets with instrument instance segmentation, or triplet segmentation for short, a new unified task which produces spatially grounded <instrument, verb, target> outputs.We start by presenting CholecTriplet-Seg, a large-scale dataset containing over 30,000 annotated frames, linking instrument instance masks with action verb and anatomical target annotations, and establishing the first benchmark for strongly supervised, instance-level triplet grounding and evaluation.To learn triplet segmentation, we propose TargetFusionNet, a novel architecture that extends Mask2Former with a target-aware fusion mechanism to address the challenge of accurate anatomical target prediction by fusing weak anatomy priors with instrument instance queries.Evaluated across recognition, detection, and triplet segmentation metrics, TargetFusionNet consistently improves performance over existing baselines, demonstrating that strong instance supervision combined with weak target priors significantly enhances the accuracy and robustness of surgical action understanding.Triplet segmentation establishes a unified framework for spatially grounding surgical action triplets. The proposed benchmark and architecture pave the way for more interpretable, surgical scene understanding.
- Abstract(参考訳): 手術器具と患者の相互作用を理解するには、どの手術器具がどの解剖学的標的に作用するかを識別するだけでなく、手術シーン内でこれらの相互作用を空間的にグラウンド化する必要がある。
既存の手術行動三重項認識法は、フレームレベルの分類から学習に限られており、特定の機器のインスタンスにアクションを確実にリンクすることができない。従来の空間的接地の試みは、主にクラスアクティベーションマップに頼っており、詳細な機器とタスクの相互作用分析に必要な正確さと堅牢性を欠いている。このギャップに対処するために、楽器のインスタンスセグメンテーション、または三重項セグメンテーション(三重項セグメンテーション)を提案する。これは、空間的に接地された<instrument, verb, target>出力を生成する新しい統一タスクである。我々は、3万以上の注釈付きフレームを含む大規模データセットであるCholecTriplet-Segを提示することから始める。
提案されたベンチマークとアーキテクチャは、より解釈可能な外科的シーン理解の道を開いた。
関連論文リスト
- ProstaTD: Bridging Surgical Triplet from Classification to Fully Supervised Detection [54.270188252068145]
ProstaTDは、ロボット補助前立腺切除術の技術的要求領域から開発された、外科的三重項検出のための大規模なデータセットである。
このデータセットは、71,775の動画フレームと196,490の注釈付きトリプルトインスタンスで構成され、複数の機関で実施された21の手術から収集された。
ProstaTDは、これまでで最大かつ最も多様な3重項データセットであり、単純な分類から正確な空間的境界と時間的境界を持つ完全な検出へとフィールドを移動している。
論文 参考訳(メタデータ) (2025-06-01T19:29:39Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - PWISeg: Point-based Weakly-supervised Instance Segmentation for Surgical
Instruments [27.89003436883652]
我々はPWISeg (Point-based Weakly-supervised Instance) という,弱制御型手術器具セグメンテーション手法を提案する。
PWISegは、特徴点とバウンディングボックスの関係をモデル化するために、ポイント・ツー・ボックスとポイント・ツー・マスクのブランチを備えたFCNベースのアーキテクチャを採用している。
そこで本研究では,キー・ツー・マスク・ブランチを駆動し,より正確なセグメンテーション予測を生成するキー・ピクセル・アソシエーション・ロスとキー・ピクセル・アソシエーション・ロスを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:48:29Z) - Surgical Action Triplet Detection by Mixed Supervised Learning of
Instrument-Tissue Interactions [5.033722555649178]
手術的三重奏法(英: surgery action triplet)は、楽器と音の相互作用を(構成、動詞、ターゲット)の組み合わせとして記述する。
この研究は、従来の三重項認識タスクよりも難しいが正確である外科的三重項検出に焦点を当てている。
マルチクラス・インスツルメンツ・アウェア・トランスフォーマー・インタラクショングラフの2段階ネットワークであるMCIT-IGを提案する。
論文 参考訳(メタデータ) (2023-07-18T18:47:48Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。