論文の概要: Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin-based Scene Representation
- arxiv url: http://arxiv.org/abs/2410.20026v1
- Date: Sat, 26 Oct 2024 00:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:50.368521
- Title: Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin-based Scene Representation
- Title(参考訳): ディジタルツインベースシーン表現による手術相認識のためのロバストアルゴリズム
- Authors: Hao Ding, Yuqian Zhang, Hongchao Shu, Xu Lian, Ji Woong Kim, Axel Krieger, Mathias Unberath,
- Abstract要約: ビデオから直接外科的フェーズを予測するエンドツーエンドのニューラルネットワークは、ベンチマークで優れたパフォーマンスを示している。
我々のゴールは、デジタルツイン(DT)パラダイムを活用して、手術ビデオの変動に対するモデルロバスト性を改善することである。
このアプローチは、信頼性の高い低レベルのシーン理解を保証する、最近のビジョン基盤モデルを活用する。
- 参考スコア(独自算出の注目度): 14.108636146958007
- License:
- Abstract: Purpose: Surgical phase recognition (SPR) is an integral component of surgical data science, enabling high-level surgical analysis. End-to-end trained neural networks that predict surgical phase directly from videos have shown excellent performance on benchmarks. However, these models struggle with robustness due to non-causal associations in the training set, resulting in poor generalizability. Our goal is to improve model robustness to variations in the surgical videos by leveraging the digital twin (DT) paradigm -- an intermediary layer to separate high-level analysis (SPR) from low-level processing (geometric understanding). This approach takes advantage of the recent vision foundation models that ensure reliable low-level scene understanding to craft DT-based scene representations that support various high-level tasks. Methods: We present a DT-based framework for SPR from videos. The framework employs vision foundation models to extract representations. We embed the representation in place of raw video inputs in the state-of-the-art Surgformer model. The framework is trained on the Cholec80 dataset and evaluated on out-of-distribution (OOD) and corrupted test samples. Results: Contrary to the vulnerability of the baseline model, our framework demonstrates strong robustness on both OOD and corrupted samples, with a video-level accuracy of 51.1 on the challenging CRCD dataset, 96.0 on an internal robotics training dataset, and 64.4 on a highly corrupted Cholec80 test set. Conclusion: Our findings lend support to the thesis that DT-based scene representations are effective in enhancing model robustness. Future work will seek to improve the feature informativeness, automate feature extraction, and incorporate interpretability for a more comprehensive framework.
- Abstract(参考訳): 目的: 外科的位相認識(SPR)は外科的データ科学の不可欠な要素であり, 高レベルの外科的解析を可能にする。
ビデオから直接外科的フェーズを予測するエンドツーエンドのニューラルネットワークは、ベンチマークで優れたパフォーマンスを示している。
しかし、これらのモデルはトレーニングセットにおける非因果関係のため頑健性に苦慮し、結果として一般化性が低下する。
我々のゴールは、デジタルツイン(DT)パラダイム(中間層)を活用して、低レベルの処理(幾何学的理解)から高レベルの分析(SPR)を分離することで、手術ビデオのバリエーションに対するモデルロバスト性を改善することである。
このアプローチは、様々なハイレベルタスクをサポートするDTベースのシーン表現を作成するために、信頼性の高い低レベルシーン理解を保証する、最近のビジョン基盤モデルを活用する。
方法:ビデオからSPRのためのDTベースのフレームワークを提案する。
このフレームワークは視覚基盤モデルを用いて表現を抽出する。
この表現を、最先端のサージフォーマーモデルに生のビデオ入力の代わりに埋め込む。
このフレームワークはColec80データセットに基づいてトレーニングされ、アウト・オブ・ディストリビューション(OOD)と破損したテストサンプルに基づいて評価される。
結果: ベースラインモデルの脆弱性とは対照的に, ビデオレベルの精度は, CRCDデータセットでは51.1, 内部ロボティクストレーニングデータセットでは96.0, 高度に破損したColec80テストセットでは64.4であった。
結論:本研究は,DTに基づくシーン表現がモデルロバスト性の向上に有効であるという仮説を支持した。
今後の作業は、機能の情報性を改善し、機能抽出を自動化し、より包括的なフレームワークに解釈可能性を導入することを目指している。
関連論文リスト
- Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - SegSTRONG-C: Segmenting Surgical Tools Robustly On Non-adversarial Generated Corruptions -- An EndoVis'24 Challenge [20.63421118951673]
現在のフィードフォワードニューラルネットワークに基づく手法は、理想的な条件下では優れたセグメンテーション性能を示す。
SegSTRONG-C チャレンジは、予期せぬが確実な手術画像の破損に対して堅牢なアルゴリズムの開発を促進することを目的としている。
新たなベンチマークにより、手術の非敵的腐敗に対するニューラルネットワークの堅牢性について慎重に研究することが可能になります。
論文 参考訳(メタデータ) (2024-07-16T16:50:43Z) - A quality assurance framework for real-time monitoring of deep learning
segmentation models in radiotherapy [3.5752677591512487]
この研究は、品質保証フレームワークを確立するために、心臓のサブ構造セグメンテーションを例として用いている。
心電図(CT)画像と241例の心電図を用いたベンチマークデータセットを収集した。
訓練されたDenoising Autoencoder(DAE)と2つの手動特徴を利用して画像領域シフト検出器を開発した。
Dice similarity coefficient (DSC) を用いて患者ごとのセグメンテーション精度を予測するための回帰モデルを構築した。
論文 参考訳(メタデータ) (2023-05-19T14:51:05Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Lightweight Encoder-Decoder Architecture for Foot Ulcer Segmentation [12.729149322066249]
足の潰瘍治癒の継続的なモニタリングは、所定の治療の有効性を確保し、劣化の可能性を回避するために必要である。
我々は、確立されたエンコーダデコーダと残差畳み込みニューラルネットワークに類似したモデルを開発した。
モデルトレーニング、テスト時間拡張、および得られた予測に対する多数決のための単純なパッチベースのアプローチにより、パフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-07-06T08:42:29Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - CaRTS: Causality-driven Robot Tool Segmentation from Vision and
Kinematics Data [11.92904350972493]
ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックなどの下流アプリケーションを可能にする。
ディープラーニングの導入により、楽器のセグメンテーションを画像から直接、あるいは画像から直接解決する多くの方法が提示された。
本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。
論文 参考訳(メタデータ) (2022-03-15T22:26:19Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。