論文の概要: Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin Representation
- arxiv url: http://arxiv.org/abs/2410.20026v2
- Date: Sun, 02 Mar 2025 02:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:09:35.178400
- Title: Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin Representation
- Title(参考訳): ディジタル双対表現による外科的位相認識のためのロバストアルゴリズム
- Authors: Hao Ding, Yuqian Zhang, Wenzheng Cheng, Xinyu Wang, Xu Lian, Chenhao Yu, Hongchao Shu, Ji Woong Kim, Axel Krieger, Mathias Unberath,
- Abstract要約: ビデオからの位相認識のためのDT表現に基づくフレームワークを提案する。
フレームワークはColec80データセットに基づいてトレーニングされ、配布外および破損したテストサンプルに基づいて評価される。
本研究は,DT表現がモデルロバスト性の向上に有効であるという仮説を支持した。
- 参考スコア(独自算出の注目度): 13.388576093178887
- License:
- Abstract: Surgical phase recognition (SPR) is an integral component of surgical data science, enabling high-level surgical analysis. End-to-end trained neural networks that predict surgical phase directly from videos have shown excellent performance on benchmarks. However, these models struggle with robustness due to non-causal associations in the training set. Our goal is to improve model robustness to variations in the surgical videos by leveraging the digital twin (DT) paradigm -- an intermediary layer to separate high-level analysis (SPR) from low-level processing. As a proof of concept, we present a DT representation-based framework for SPR from videos. The framework employs vision foundation models with reliable low-level scene understanding to craft DT representation. We embed the DT representation in place of raw video inputs in the state-of-the-art SPR model. The framework is trained on the Cholec80 dataset and evaluated on out-of-distribution (OOD) and corrupted test samples. Contrary to the vulnerability of the baseline model, our framework demonstrates strong robustness on both OOD and corrupted samples, with a video-level accuracy of 80.3 on a highly corrupted Cholec80 test set, 67.9 on the challenging CRCD dataset, and 99.8 on an internal robotic surgery dataset, outperforming the baseline by 3.9, 16.8, and 90.9 respectively. We also find that using DT representation as an augmentation to the raw input can significantly improve model robustness. Our findings lend support to the thesis that DT representations are effective in enhancing model robustness. Future work will seek to improve the feature informativeness and incorporate interpretability for a more comprehensive framework.
- Abstract(参考訳): 外科的位相認識(SPR)は、外科的データ科学の不可欠な要素であり、高いレベルの外科的分析を可能にする。
ビデオから直接外科的フェーズを予測するエンドツーエンドのニューラルネットワークは、ベンチマークで優れたパフォーマンスを示している。
しかし、これらのモデルはトレーニングセットにおける非因果関係のため、堅牢性に苦しむ。
我々のゴールは、デジタルツイン(DT)パラダイム(中間層)を活用して、低レベルの処理から高レベルの分析(SPR)を分離することで、手術ビデオのバリエーションに対するモデルロバスト性を改善することである。
概念実証として,ビデオからのSPRのためのDT表現に基づくフレームワークを提案する。
このフレームワークは、DT表現を作成するために、信頼性の高い低レベルのシーン理解を備えた視覚基盤モデルを採用している。
我々は、DT表現を生のビデオ入力の代わりに、最先端のSPRモデルに組み込む。
このフレームワークはColec80データセットに基づいてトレーニングされ、アウト・オブ・ディストリビューション(OOD)と破損したテストサンプルに基づいて評価される。
ベースラインモデルの脆弱性とは対照的に,ビデオレベルの精度は高度に劣化したColec80テストセットでは80.3,挑戦的なCRCDデータセットでは67.9,内科手術データセットでは99.8で,ベースラインを3.9,16.8,90.9で上回った。
また、DT表現を生の入力への拡張として用いることで、モデルのロバスト性を大幅に改善できることがわかった。
本研究は,DT表現がモデルロバスト性の向上に有効であるという仮説を支持した。
今後の作業は、機能のインフォメーション性を改善し、より包括的なフレームワークに解釈可能性を導入することを目指している。
関連論文リスト
- Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - SegSTRONG-C: Segmenting Surgical Tools Robustly On Non-adversarial Generated Corruptions -- An EndoVis'24 Challenge [20.63421118951673]
現在のフィードフォワードニューラルネットワークに基づく手法は、理想的な条件下では優れたセグメンテーション性能を示す。
SegSTRONG-C チャレンジは、予期せぬが確実な手術画像の破損に対して堅牢なアルゴリズムの開発を促進することを目的としている。
新たなベンチマークにより、手術の非敵的腐敗に対するニューラルネットワークの堅牢性について慎重に研究することが可能になります。
論文 参考訳(メタデータ) (2024-07-16T16:50:43Z) - A quality assurance framework for real-time monitoring of deep learning
segmentation models in radiotherapy [3.5752677591512487]
この研究は、品質保証フレームワークを確立するために、心臓のサブ構造セグメンテーションを例として用いている。
心電図(CT)画像と241例の心電図を用いたベンチマークデータセットを収集した。
訓練されたDenoising Autoencoder(DAE)と2つの手動特徴を利用して画像領域シフト検出器を開発した。
Dice similarity coefficient (DSC) を用いて患者ごとのセグメンテーション精度を予測するための回帰モデルを構築した。
論文 参考訳(メタデータ) (2023-05-19T14:51:05Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Lightweight Encoder-Decoder Architecture for Foot Ulcer Segmentation [12.729149322066249]
足の潰瘍治癒の継続的なモニタリングは、所定の治療の有効性を確保し、劣化の可能性を回避するために必要である。
我々は、確立されたエンコーダデコーダと残差畳み込みニューラルネットワークに類似したモデルを開発した。
モデルトレーニング、テスト時間拡張、および得られた予測に対する多数決のための単純なパッチベースのアプローチにより、パフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-07-06T08:42:29Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - CaRTS: Causality-driven Robot Tool Segmentation from Vision and
Kinematics Data [11.92904350972493]
ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックなどの下流アプリケーションを可能にする。
ディープラーニングの導入により、楽器のセグメンテーションを画像から直接、あるいは画像から直接解決する多くの方法が提示された。
本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。
論文 参考訳(メタデータ) (2022-03-15T22:26:19Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。