論文の概要: SurgFusion-Net: Diversified Adaptive Multimodal Fusion Network for Surgical Skill Assessment
- arxiv url: http://arxiv.org/abs/2603.00108v1
- Date: Wed, 18 Feb 2026 13:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.058932
- Title: SurgFusion-Net: Diversified Adaptive Multimodal Fusion Network for Surgical Skill Assessment
- Title(参考訳): SurgFusion-Net: 手術スキル評価のための適応型多モード核融合ネットワーク
- Authors: Runlong He, Freweini M. Tesfai, Matthew W. E. Boal, Nazir Sirajudeen, Dimitrios Anastasiou, Jialang Xu, Mobarak I. Hoque, Philip J. Edwards, John D. Kelly, Ashwin Sridhar, Abdolrahim Kadkhodamohammadi, Dhivya Chandrasekaran, Matthew J. Clarkson, Danail Stoyanov, Nader Francis, Evangelos B. Mazomenos,
- Abstract要約: 本研究はマルチモーダル手術技術評価のための革新的な融合戦略であるSurgFusion-Net and Divergence Regulated Attention (DRA)を紹介する。
今回,本研究は,37ビデオから279,691RGBのRAHスキルデータセットと,33ビデオから70,661RGBのRARPスキルデータセットを寄贈した。
DRAは適応的二重注意と多様性促進多面的注意を3つのモダリティから統合する。
- 参考スコア(独自算出の注目度): 12.203119189443848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic-assisted surgery (RAS) is established in clinical practice, and automated surgical skill assessment utilizing multimodal data offers transformative potential for surgical analytics and education. However, developing effective multimodal methods remains challenging due to the task complexity, limited annotated datasets and insufficient techniques for cross-modal information fusion. Existing state-of-the-art relies exclusively on RGB video and only applies on dry-lab settings, failing to address the significant domain gap between controlled simulation and real clinical cases, where the surgical environment together with camera and tissue motion introduce substantial complexities. This work introduces SurgFusion-Net and Divergence Regulated Attention (DRA), an innovative fusion strategy for multimodal surgical skill assessment. We contribute two first-of-their-kind clinical datasets: the RAH-skill dataset containing 279,691 RGB frames from 37 videos of Robot-assisted Hysterectomy (RAH), and the RARP-skill dataset containing 70,661 RGB frames from 33 videos of Robot-Assisted Radical Prostatectomy (RARP). Both datasets include M-GEARS skill annotations, corresponding optical flow and tool segmentation masks. DRA incorporates adaptive dual attention and diversity-promoting multi-head attention to fuse multimodal information, from three modalities, based on surgical context, enhancing assessment accuracy and reliability. Validated on the JIGSAWS benchmark, RAH-skill, and RARP-skill datasets, our approach outperforms recent baselines with SCC improvements of 0.02 in LOSO, 0.04 in LOUO across JIGSAWS tasks, and 0.0538 and 0.0493 gains on RAH-skill and RARP-skill, respectively.
- Abstract(参考訳): 臨床的にロボット支援手術 (RAS) が確立され, マルチモーダルデータを用いた自動手術スキル評価は, 外科的分析・教育の変革的可能性を提供する。
しかし、タスクの複雑さ、限られた注釈付きデータセット、およびクロスモーダル情報融合のための不十分な技術により、効果的なマルチモーダル手法の開発は依然として困難である。
既存の最先端技術はRGBビデオにのみ依存しており、ドライラブの設定にのみ適用され、コントロールされたシミュレーションと実際の臨床ケースの間の大きな領域ギャップに対処できない。
本研究はマルチモーダル手術技術評価のための革新的な融合戦略であるSurgFusion-Net and Divergence Regulated Attention (DRA)を紹介する。
初回臨床データセットは,37ビデオから279,691RGBのRAHスキルデータセット,33ビデオから70,661RGBのRARPスキルデータセットである。
両方のデータセットには、M-GEARSスキルアノテーション、対応する光学フロー、ツールセグメンテーションマスクが含まれる。
DRAは、適応的な二重注意と多様性を動機とする多面的注意を、外科的文脈に基づく3つのモダリティから融合し、評価精度と信頼性を向上させる。
JIGSAWSベンチマーク、RAHスキル、RARPスキルデータセットで検証された当社のアプローチは、最近のベースラインを上回り、LOSOで0.02、JIGSAWSタスクで0.04、RAHスキルで0.0538、RARPスキルで0.0493、それぞれ改善しています。
関連論文リスト
- MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery [4.287077788799387]
MiDASは、手術用ロボットプラットフォーム全体にわたる、時間同期で非侵襲的なマルチモーダルデータ取得のためのプラットフォームに依存しないシステムである。
オープンソース Raven-II と da Vinci Xi のMIDAS をペグ転送とヘルニア修復作業のマルチモーダルデータセットを用いて検証した。
論文 参考訳(メタデータ) (2026-02-12T20:56:15Z) - Video Dataset for Surgical Phase, Keypoint, and Instrument Recognition in Laparoscopic Surgery (PhaKIR) [17.067466198535246]
本稿では,PhaKIRデータセット,Keypoint,Instrument Recognitionについて述べる。
PhaKIRは、フェーズラベル、楽器ポーズ情報、ピクセル精度の計測機器セグメンテーションを共同で提供する最初のマルチ機関データセットである。
データセットはZenodoプラットフォーム経由で,要求に応じて公開されている。
論文 参考訳(メタデータ) (2025-11-09T21:29:33Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - ProstaTD: Bridging Surgical Triplet from Classification to Fully Supervised Detection [54.270188252068145]
ProstaTDは、ロボット補助前立腺切除術の技術的要求領域から開発された、外科的三重項検出のための大規模なデータセットである。
このデータセットは、71,775の動画フレームと196,490の注釈付きトリプルトインスタンスで構成され、複数の機関で実施された21の手術から収集された。
ProstaTDは、これまでで最大かつ最も多様な3重項データセットであり、単純な分類から正確な空間的境界と時間的境界を持つ完全な検出へとフィールドを移動している。
論文 参考訳(メタデータ) (2025-06-01T19:29:39Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。
クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z) - Towards Unified Surgical Skill Assessment [18.601526803020885]
自動手術スキル評価のための統合型マルチパスフレームワークを提案する。
手術シミュレーションのJIGSAWSデータセットと腹腔鏡下手術の新たな臨床データセットについて実験を行った。
論文 参考訳(メタデータ) (2021-06-02T09:06:43Z) - Learning Invariant Representation of Tasks for Robust Surgical State
Estimation [39.515036686428836]
外科的タスク不変状態推定ネットワークであるStiseNetを提案する。
StiseNetは、RASデータセット固有の外科的テクニックや手術環境のバリエーションの影響を最小限に抑える。
3つのデータセット上での最先端状態推定法より優れていることを示す。
論文 参考訳(メタデータ) (2021-02-18T02:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。