論文の概要: Meta-SurDiff: Classification Diffusion Model Optimized by Meta Learning is Reliable for Online Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2506.14181v1
- Date: Tue, 17 Jun 2025 04:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.329638
- Title: Meta-SurDiff: Classification Diffusion Model Optimized by Meta Learning is Reliable for Online Surgical Phase Recognition
- Title(参考訳): Meta-SurDiff: メタラーニングによって最適化された分類拡散モデルはオンライン外科的位相認識に信頼性がある
- Authors: Yufei Li, Jirui Wu, Long Tian, Liming Wang, Xiaonan Liu, Zijun Liu, Xiyang Liu,
- Abstract要約: オンライン外科的位相認識のためのメタラーニング最適化分類拡散モデル(Meta-SurDiff)を提案する。
不均衡な位相分布に起因する粗い認識のために、メタラーニングに基づく目的を用いて拡散モデルを学習する。
広く使用されている5つのデータセットに対する広範囲な実験を通じて,オンライン外科的位相認識におけるMeta-SurDiffの有効性を確立した。
- 参考スコア(独自算出の注目度): 24.0553596880736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online surgical phase recognition has drawn great attention most recently due to its potential downstream applications closely related to human life and health. Despite deep models have made significant advances in capturing the discriminative long-term dependency of surgical videos to achieve improved recognition, they rarely account for exploring and modeling the uncertainty in surgical videos, which should be crucial for reliable online surgical phase recognition. We categorize the sources of uncertainty into two types, frame ambiguity in videos and unbalanced distribution among surgical phases, which are inevitable in surgical videos. To address this pivot issue, we introduce a meta-learning-optimized classification diffusion model (Meta-SurDiff), to take full advantage of the deep generative model and meta-learning in achieving precise frame-level distribution estimation for reliable online surgical phase recognition. For coarse recognition caused by ambiguous video frames, we employ a classification diffusion model to assess the confidence of recognition results at a finer-grained frame-level instance. For coarse recognition caused by unbalanced phase distribution, we use a meta-learning based objective to learn the diffusion model, thus enhancing the robustness of classification boundaries for different surgical phases.We establish effectiveness of Meta-SurDiff in online surgical phase recognition through extensive experiments on five widely used datasets using more than four practical metrics. The datasets include Cholec80, AutoLaparo, M2Cai16, OphNet, and NurViD, where OphNet comes from ophthalmic surgeries, NurViD is the daily care dataset, while the others come from laparoscopic surgeries. We will release the code upon acceptance.
- Abstract(参考訳): オンラインの外科的位相認識は、人間の生命と健康と密接に関連する下流の応用の可能性から、近年大きな注目を集めている。
深層モデルでは、認識を向上させるために外科的ビデオの差別的長期的依存を捉え、大きな進歩を遂げてきたが、信頼性の高いオンライン外科的位相認識にとって欠かせない、外科的ビデオの不確実性を探索しモデル化することはめったにない。
我々は,不確実性の原因を,ビデオのフレームのあいまいさと手術相の非バランス分布の2つのタイプに分類する。
この重要な問題に対処するため,我々はメタラーニング最適化分類拡散モデル(Meta-SurDiff)を導入し,深層学習モデルとメタラーニングをフル活用して,信頼性の高いオンライン外科的位相認識のためのフレームレベルの正確な分布推定を実現する。
不明瞭なビデオフレームによる粗い認識には、よりきめ細かいフレームレベルのインスタンスにおける認識結果の信頼性を評価するために分類拡散モデルを用いる。
非バランスな位相分布による粗い認識のために,拡散モデル学習のためのメタラーニングに基づく目的を用いて,異なる手術相の分類境界の堅牢性を高め,4つ以上の実用的な指標を用いた5つの広く使用されているデータセットに対する広範な実験を通じて,オンライン手術相認識におけるメタサーディフの有効性を確立した。
データセットには、Cholec80、AutoLaparo、M2Cai16、OphNet、NurViDが含まれる。
私たちは受け入れに応じてコードを公開します。
関連論文リスト
- ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking [15.83425997240828]
ReSurgSAM2は2段階の外科的セグメンテーションフレームワークである。
クロスモーダルな時空間マンバを用いて正確な検出とセグメンテーション結果を生成する。
信頼性と多様なメモリバンクを維持し、一貫した長期追跡を保証する、多様性駆動型メモリ機構を備えている。
論文 参考訳(メタデータ) (2025-05-13T13:56:10Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Surgical Phase Recognition in Laparoscopic Cholecystectomy [57.929132269036245]
本稿では,2段階推論パイプラインのキャリブレーションされた信頼度スコアを利用するTransformerに基づく手法を提案する。
提案手法はColec80データセットのベースラインモデルよりも優れており,様々なアクションセグメンテーション手法に適用できる。
論文 参考訳(メタデータ) (2022-06-14T22:55:31Z) - LifeLonger: A Benchmark for Continual Disease Classification [59.13735398630546]
MedMNISTコレクションの連続的な疾患分類のためのベンチマークであるLifeLongerを紹介する。
タスクとクラスでの病気の漸進的な学習は、モデルをスクラッチから再トレーニングすることなく、新しいサンプルを分類する問題に対処する。
クロスドメインインクリメンタル学習は、これまで得られた知識を維持しながら、異なる機関から派生したデータセットを扱う問題に対処する。
論文 参考訳(メタデータ) (2022-04-12T12:25:05Z) - Incremental Cross-Domain Adaptation for Robust Retinopathy Screening via
Bayesian Deep Learning [7.535751594024775]
網膜症は、タイムリーに治療されないと、深刻な視覚障害や失明を引き起こす網膜疾患のグループである。
本稿では, 深い分類モデルを用いて, 異常網膜病理を段階的に学習することのできる, 漸進的なクロスドメイン適応手法を提案する。
提案したフレームワークは、6つの公開データセットで評価され、全体的な精度とF1スコアをそれぞれ0.9826と0.9846で達成することで、最先端の競合他社を上回っている。
論文 参考訳(メタデータ) (2021-10-18T13:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。