論文の概要: Adaptive transfer learning for surgical tool presence detection in laparoscopic videos through gradual freezing fine-tuning
- arxiv url: http://arxiv.org/abs/2510.15372v1
- Date: Fri, 17 Oct 2025 07:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.508794
- Title: Adaptive transfer learning for surgical tool presence detection in laparoscopic videos through gradual freezing fine-tuning
- Title(参考訳): 段階的凍結微調整による腹腔鏡下手術ツール存在検出のための適応的転写学習
- Authors: Ana Davila, Jacinto Colan, Yasuhisa Hasegawa,
- Abstract要約: 最小侵襲手術は、高度な分析と補助を可能にする自動手術ツール検出の恩恵を受けることができる。
外科的設定における注釈付きデータの可用性の制限は、堅牢なディープラーニングモデルをトレーニングする上での課題となる。
本稿では,線形探索段階と漸進凍結段階の2段階からなる適応微調整手法を提案する。
- 参考スコア(独自算出の注目度): 1.1371756033920992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimally invasive surgery can benefit significantly from automated surgical tool detection, enabling advanced analysis and assistance. However, the limited availability of annotated data in surgical settings poses a challenge for training robust deep learning models. This paper introduces a novel staged adaptive fine-tuning approach consisting of two steps: a linear probing stage to condition additional classification layers on a pre-trained CNN-based architecture and a gradual freezing stage to dynamically reduce the fine-tunable layers, aiming to regulate adaptation to the surgical domain. This strategy reduces network complexity and improves efficiency, requiring only a single training loop and eliminating the need for multiple iterations. We validated our method on the Cholec80 dataset, employing CNN architectures (ResNet-50 and DenseNet-121) pre-trained on ImageNet for detecting surgical tools in cholecystectomy endoscopic videos. Our results demonstrate that our method improves detection performance compared to existing approaches and established fine-tuning techniques, achieving a mean average precision (mAP) of 96.4%. To assess its broader applicability, the generalizability of the fine-tuning strategy was further confirmed on the CATARACTS dataset, a distinct domain of minimally invasive ophthalmic surgery. These findings suggest that gradual freezing fine-tuning is a promising technique for improving tool presence detection in diverse surgical procedures and may have broader applications in general image classification tasks.
- Abstract(参考訳): 最小侵襲手術は、高度な分析と補助を可能にする自動手術ツール検出の恩恵を受けることができる。
しかし、アノテートされたデータが外科的設定で利用可能であることは、堅牢なディープラーニングモデルをトレーニングする上での課題となる。
本稿では,CNNをベースとしたアーキテクチャ上に,線形な分類層を条件付けするための適応的微調整段階と,微細調整可能な層を動的に減らし,外科領域への適応を規制するための段階的凍結段階の2つの段階からなる適応的微調整手法を提案する。
この戦略は、ネットワークの複雑さを減らし、効率を向上させる。
CNN アーキテクチャ (ResNet-50 と DenseNet-121) をImageNet で事前訓練し, 胆嚢摘出術の内視鏡的画像診断に用いた Cholec80 データセットを用いて本手法の有効性を検証した。
提案手法は,従来の手法に比べて検出性能が向上し,精密チューニング技術が確立され,平均精度(mAP)は96.4%であった。
より広い適用性を評価するため, 最小侵襲眼科手術の領域であるCATARACTSデータセットにおいて, 微調整戦略の一般化性を確認した。
これらの結果から, 段階的凍結微調整は多種多様な外科手術におけるツール存在検出を改善するための有望な手法であり, 一般的な画像分類タスクに広く応用できる可能性が示唆された。
関連論文リスト
- Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - $\mathsf{CSMAE~}$:~Cataract Surgical Masked Autoencoder (MAE) based Pre-training [25.71088804562768]
本研究では,白内障手術ビデオ解析のためのMasked Autoencoder (MAE) を用いた事前トレーニング手法を提案する。
マスク用のトークンをランダムに選択するのではなく、トークントークンの重要性に基づいて選択される。
このアプローチは、現在の最先端の自己教師型事前学習およびアダプタベースの学習手法を、かなりのマージンで超越している。
論文 参考訳(メタデータ) (2025-02-12T22:24:49Z) - Comparison of fine-tuning strategies for transfer learning in medical image classification [2.271776292902496]
先進的な事前訓練モデルが利用可能であるにもかかわらず、医用画像への直接の応用は、医学データ特有の特徴のため、しばしば不足する。
本研究は,医療画像領域の領域にまたがる事前学習モデルに適用した各種微調整法の性能に関する総合的な分析を行う。
論文 参考訳(メタデータ) (2024-06-14T14:00:02Z) - Learned Image resizing with efficient training (LRET) facilitates
improved performance of large-scale digital histopathology image
classification models [0.0]
組織学的検査は腫瘍学の研究と診断において重要な役割を担っている。
深層畳み込みニューラルネットワーク(DCNN)のトレーニングへの最近のアプローチは、最適下モデルの性能をもたらす。
本稿では,従来の病理組織学分類モデルトレーニングの主な限界に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-19T23:45:47Z) - Efficient Deformable Tissue Reconstruction via Orthogonal Neural Plane [58.871015937204255]
変形性組織を再建するための高速直交平面(Fast Orthogonal Plane)を導入する。
我々は外科手術を4Dボリュームとして概念化し、それらをニューラルネットワークからなる静的および動的フィールドに分解する。
この分解により4次元空間が増加し、メモリ使用量が減少し、最適化が高速化される。
論文 参考訳(メタデータ) (2023-12-23T13:27:50Z) - Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via
Optimization Trajectory Distillation [73.83178465971552]
自動医用画像解析の成功は、大規模かつ専門家による注釈付きトレーニングセットに依存する。
非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。
本稿では,2つの技術的課題に新しい視点から対処する統一的手法である最適化トラジェクトリ蒸留を提案する。
論文 参考訳(メタデータ) (2023-07-27T08:58:05Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - One-shot skill assessment in high-stakes domains with limited data via meta learning [0.0]
A-VBANetは、ワンショット学習を通じてドメインに依存しないスキルアセスメントを提供する、新しいメタラーニングモデルである。
腹腔鏡下胆嚢摘出術では99.5%,小切片設定では99.9%,腹腔鏡下胆嚢摘出術では89.7%の順応が得られた。
論文 参考訳(メタデータ) (2022-12-16T01:04:52Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - End-to-End Blind Quality Assessment for Laparoscopic Videos using Neural
Networks [9.481148895837812]
本稿では、歪み分類と品質予測のためのニューラルネットワークに基づくアプローチを提案する。
アーキテクチャ全体(ResNetモデルとFCNNモデル)をトレーニングするために,トランスファーラーニングとエンドツーエンドラーニングアプローチについて検討した。
新しい腹腔鏡画像品質データベースを用いて実験を行い,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-02-09T15:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。