論文の概要: Multimodal Graph Representation Learning for Robust Surgical Workflow Recognition with Adversarial Feature Disentanglement
- arxiv url: http://arxiv.org/abs/2505.01766v1
- Date: Sat, 03 May 2025 09:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.261163
- Title: Multimodal Graph Representation Learning for Robust Surgical Workflow Recognition with Adversarial Feature Disentanglement
- Title(参考訳): 対向的特徴歪みを考慮したロバスト手術ワークフロー認識のためのマルチモーダルグラフ表現学習
- Authors: Long Bai, Boyi Ma, Ruohan Wang, Guankun Wang, Beilei Cui, Zhongliang Jiang, Mobarakol Islam, Zhe Min, Jiewen Lai, Nassir Navab, Hongliang Ren,
- Abstract要約: 本稿では,精度と信頼性を高めるために,視覚と運動データを統合するグラフベースの手法を提案する。
ヴィジュアルデータはダイナミックな手術シーンをキャプチャし、キネマティックデータは正確な運動情報を提供する。
本研究の目的は, 外科手術に固有の複雑度とダイナミズムに対処し, 自動的なワークフロー認識を向上することである。
- 参考スコア(独自算出の注目度): 45.691433426389985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical workflow recognition is vital for automating tasks, supporting decision-making, and training novice surgeons, ultimately improving patient safety and standardizing procedures. However, data corruption can lead to performance degradation due to issues like occlusion from bleeding or smoke in surgical scenes and problems with data storage and transmission. In this case, we explore a robust graph-based multimodal approach to integrating vision and kinematic data to enhance accuracy and reliability. Vision data captures dynamic surgical scenes, while kinematic data provides precise movement information, overcoming limitations of visual recognition under adverse conditions. We propose a multimodal Graph Representation network with Adversarial feature Disentanglement (GRAD) for robust surgical workflow recognition in challenging scenarios with domain shifts or corrupted data. Specifically, we introduce a Multimodal Disentanglement Graph Network that captures fine-grained visual information while explicitly modeling the complex relationships between vision and kinematic embeddings through graph-based message modeling. To align feature spaces across modalities, we propose a Vision-Kinematic Adversarial framework that leverages adversarial training to reduce modality gaps and improve feature consistency. Furthermore, we design a Contextual Calibrated Decoder, incorporating temporal and contextual priors to enhance robustness against domain shifts and corrupted data. Extensive comparative and ablation experiments demonstrate the effectiveness of our model and proposed modules. Moreover, our robustness experiments show that our method effectively handles data corruption during storage and transmission, exhibiting excellent stability and robustness. Our approach aims to advance automated surgical workflow recognition, addressing the complexities and dynamism inherent in surgical procedures.
- Abstract(参考訳): 外科的ワークフロー認識は、タスクの自動化、意思決定のサポート、初心者外科医の訓練、最終的には患者の安全性と標準化手順の改善に不可欠である。
しかし、手術シーンにおける出血や煙の排除やデータ保存や送信の問題などにより、データの破損がパフォーマンスの低下につながる可能性がある。
本稿では,視覚と運動データを統合し,精度と信頼性を高めるための頑健なグラフベースのマルチモーダル手法について検討する。
視覚データはダイナミックな手術シーンを捉え、キネマティックデータは正確な運動情報を提供し、悪条件下での視覚認識の限界を克服する。
本稿では,ドメインシフトや破損したデータを扱う場合の,堅牢な手術ワークフロー認識のための多モードグラフ表現ネットワークであるAdversarial Feature Disentanglement (GRAD)を提案する。
具体的には,視覚とキネマティックな埋め込みの複雑な関係を,グラフベースのメッセージモデリングにより明確にモデル化しながら,きめ細かな視覚情報をキャプチャするマルチモーダルディスタングルメントグラフネットワークを提案する。
モーダル性にまたがる特徴空間の整合を図るために, 対角トレーニングを活用し, モダリティのギャップを減らし, 特徴の整合性を向上させるビジョン・キネマティック・アドバイサル・フレームワークを提案する。
さらに、ドメインシフトや破損したデータに対する堅牢性を高めるために、時間的および文脈的優先順位を組み込んだコンテキスト校正デコーダを設計する。
大規模な比較・アブレーション実験により,本モデルと提案モジュールの有効性が示された。
さらに,ロバスト性実験により,保存・送信時のデータ破損を効果的に処理し,安定性とロバスト性に優れることを示した。
本研究の目的は, 外科手術に固有の複雑度とダイナミズムに対処し, 自動的なワークフロー認識を向上することである。
関連論文リスト
- Scalable Drift Monitoring in Medical Imaging AI [37.1899538374058]
我々は,スケーラブルなドリフトモニタリングのための拡張フレームワークであるMCC+を開発した。
それは、医療画像AIモデルのためのリアルタイムドリフト検出を導入したCheXstrayフレームワークの上に構築されている。
MMC+は、継続的パフォーマンス監視の信頼性と費用対効果を提供する。
論文 参考訳(メタデータ) (2024-10-17T02:57:35Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - SegSTRONG-C: Segmenting Surgical Tools Robustly On Non-adversarial Generated Corruptions -- An EndoVis'24 Challenge [35.28816926000958]
外科データ科学専門のベンチマークと課題であるSegSTRONG-Cを紹介する。
我々は、予期せぬ不利な非敵対的な汚職の下でのモデル劣化をよりよく理解することを目指している。
挑戦者のパフォーマンスは平均0.9394 DSCと0.9301 NSDを達成し、刺激的な改善を示している。
論文 参考訳(メタデータ) (2024-07-16T16:50:43Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Robustness in Deep Learning for Computer Vision: Mind the gap? [13.576376492050185]
我々は、コンピュータビジョンのためのディープラーニングにおいて、現在の定義と非敵対的堅牢性に向けての進歩を特定し、分析し、要約する。
この研究の分野は、敵対的機械学習に対して、不当にあまり注目されていないことがわかりました。
論文 参考訳(メタデータ) (2021-12-01T16:42:38Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。