論文の概要: Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance
- arxiv url: http://arxiv.org/abs/2506.01980v1
- Date: Fri, 16 May 2025 14:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.65485
- Title: Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance
- Title(参考訳): 画像ガイド下手術支援のための圧縮とエントロピー最大化を利用した手術基礎モデル
- Authors: Lianhao Yin, Ozanan Meireles, Guy Rosman, Daniela Rus,
- Abstract要約: 低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 50.486523249499115
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-time video understanding is critical to guide procedures in minimally invasive surgery (MIS). However, supervised learning approaches require large, annotated datasets that are scarce due to annotation efforts that are prohibitive, e.g., in medical fields. Although self-supervision methods can address such limitations, current self-supervised methods often fail to capture structural and physical information in a form that generalizes across tasks. We propose Compress-to-Explore (C2E), a novel self-supervised framework that leverages Kolmogorov complexity to learn compact, informative representations from surgical videos. C2E uses entropy-maximizing decoders to compress images while preserving clinically relevant details, improving encoder performance without labeled data. Trained on large-scale unlabeled surgical datasets, C2E demonstrates strong generalization across a variety of surgical ML tasks, such as workflow classification, tool-tissue interaction classification, segmentation, and diagnosis tasks, providing improved performance as a surgical visual foundation model. As we further show in the paper, the model's internal compact representation better disentangles features from different structural parts of images. The resulting performance improvements highlight the yet untapped potential of self-supervised learning to enhance surgical AI and improve outcomes in MIS.
- Abstract(参考訳): リアルタイムビデオ理解は, 最小侵襲手術(MIS)の手順を導く上で重要である。
しかし、教師付き学習アプローチでは、医学分野でのアノテーションの取り組みが禁止されているため、注釈付きデータセットが不足している。
自己監督法はそのような制限に対処できるが、現在の自己監督法は、タスクをまたいで一般化する形で構造的および物理的情報をキャプチャできないことが多い。
コンプレックス・トゥ・エクスプローラー(Compress-to-Explore, C2E)は,コルモゴロフ複雑性を利用して,手術ビデオからコンパクトで情報的表現を学習する,新しい自己教師型フレームワークである。
C2Eはエントロピー最大化デコーダを使用して、臨床的に関連する詳細を保存しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
大規模な未ラベルの外科的データセットに基づいて訓練されたC2Eは、ワークフロー分類、ツールとタスクのインタラクション分類、セグメンテーション、診断タスクなど、さまざまな外科的MLタスクに対して強力な一般化を示し、外科的視覚基盤モデルとしてのパフォーマンスを向上させる。
論文でさらに示すように、モデルの内部コンパクト表現は、画像の異なる構造部分から特徴を分離する方がよい。
結果として得られたパフォーマンス改善は、外科的AIを強化し、MISの結果を改善するための自己教師なし学習の可能性を強調している。
関連論文リスト
- Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。
様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-07T15:27:35Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Dynamic Scene Graph Representation for Surgical Video [37.22552586793163]
我々は、シーングラフを、より包括的で意味があり、人間の読みやすい方法で、手術ビデオを表現するために活用する。
CaDISとCATARACTSのセマンティックセグメンテーションからシーングラフデータセットを作成する。
モデル決定の妥当性と堅牢性について,手術シーングラフの利点を実証する。
論文 参考訳(メタデータ) (2023-09-25T21:28:14Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - Effective semantic segmentation in Cataract Surgery: What matters most? [5.1151054398496685]
我々の研究は、白内障手術に関する挑戦的な公開ベンチマークであるCaDISに最先端のニューラルネットワーク設計の選択肢を提案する。
本手法は, 3つのセマンティックセマンティックセマンティクスタスクにおいて, よりきめ細かい外科的ツールセットを用いて, 高い性能を実現する。
論文 参考訳(メタデータ) (2021-08-13T08:27:54Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。