Fugu-MT 論文翻訳(概要): Free Lunch for Surgical Video Understanding by Distilling Self-Supervisions

論文の概要: Free Lunch for Surgical Video Understanding by Distilling Self-Supervisions

arxiv url: http://arxiv.org/abs/2205.09292v1
Date: Thu, 19 May 2022 02:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-20 14:04:11.482867
Title: Free Lunch for Surgical Video Understanding by Distilling Self-Supervisions
Title（参考訳）: セルフスーパービジョン蒸留による手術ビデオ理解のためのフリーランチ
Authors: Xinpeng Ding, Ziwei Liu and Xiaomeng Li
Abstract要約: 外科的ビデオ理解のための強力な,かつ効率的なセルフスーパービジョンフレームワークを提案する。私たちの重要な洞察は、大規模なジェネリックデータセットでトレーニングされた、公開可能なモデルから知識を抽出することです。当社のフレームワークは,低データ体制下では魅力的な優位性を示している。
参考スコア（独自算出の注目度）: 40.26183297128028
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised learning has witnessed great progress in vision and NLP; recently, it also attracted much attention to various medical imaging modalities such as X-ray, CT, and MRI. Existing methods mostly focus on building new pretext self-supervision tasks such as reconstruction, orientation, and masking identification according to the properties of medical images. However, the publicly available self-supervision models are not fully exploited. In this paper, we present a powerful yet efficient self-supervision framework for surgical video understanding. Our key insight is to distill knowledge from publicly available models trained on large generic datasets4 to facilitate the self-supervised learning of surgical videos. To this end, we first introduce a semantic-preserving training scheme to obtain our teacher model, which not only contains semantics from the publicly available models, but also can produce accurate knowledge for surgical data. Besides training with only contrastive learning, we also introduce a distillation objective to transfer the rich learned information from the teacher model to self-supervised learning on surgical data. Extensive experiments on two surgical phase recognition benchmarks show that our framework can significantly improve the performance of existing self-supervised learning methods. Notably, our framework demonstrates a compelling advantage under a low-data regime. Our code is available at https://github.com/xmed-lab/DistillingSelf.
Abstract（参考訳）: 自己教師型学習は視力とNLPの進歩を目の当たりにしており、最近ではX線、CT、MRIといった様々な医学的画像モダリティにも注目が集まっている。既存の手法は主に、医用画像の特性に応じて、再構築、配向、マスキング識別などの新しいプリテキスト・セルフ・スーパービジョン・タスクを構築することに焦点を当てている。しかし、公に入手可能なセルフスーパービジョンモデルは十分に活用されていない。本稿では,外科的ビデオ理解のための強力な自己監督フレームワークを提案する。私たちの重要な洞察は、大きなジェネリックデータセット4でトレーニングされた公開モデルから知識を抽出し、手術ビデオの自己監督学習を促進することです。この目的のために,我々はまず,教師モデルを得るための意味保存トレーニングスキームを導入する。また, コントラスト学習のみによる学習に加えて, リッチな学習情報を教師モデルから手術データに基づく自己監督学習へ伝達する蒸留目的も紹介する。 2つの手術段階認識ベンチマークに関する広範囲な実験により,既存の自己教師あり学習法の性能が大幅に向上することを示した。特に、私たちのフレームワークは低データ体制下で魅力的な優位性を示しています。私たちのコードはhttps://github.com/xmed-lab/distillingselfで利用可能です。

関連論文リスト

Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Interactive Generation of Laparoscopic Videos with Diffusion Models [1.5488613349551188]
そこで本研究では,外科的動作をテキストで指定することで,現実的な腹腔鏡画像と映像を生成する方法について述べる。我々は、Colecデータセットファミリを使用して、我々のアプローチの性能を実証する。我々は38.097のFIDと0.71のF1スコアを達成する。
論文参考訳（メタデータ） (2024-04-23T12:36:07Z)
Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文参考訳（メタデータ） (2024-04-07T15:27:35Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。本研究では,映像分類作業における知識の伝達に着目した。予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文参考訳（メタデータ） (2022-07-04T10:00:47Z)
Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文参考訳（メタデータ） (2022-07-01T14:17:11Z)
Evaluating the Robustness of Self-Supervised Learning in Medical Imaging [57.20012795524752]
自己監督は、小さな注釈付きデータセット上でターゲットタスクを訓練する際の効果的な学習戦略であることを示した。本研究では,自己監視学習によって訓練されたネットワークが,医療画像の文脈における完全監視学習と比較して,堅牢性と汎用性に優れていることを示した。
論文参考訳（メタデータ） (2021-05-14T17:49:52Z)
SSLM: Self-Supervised Learning for Medical Diagnosis from MR Video [19.5917119072985]
本稿では,磁気共鳴(MR)ビデオクリップから空間解剖学的表現を学習するための自己教師型学習手法を提案する。提案する前文モデルは意味のある空間的文脈不変表現を学習する。異なる実験は、プリテキストモデルによって学習された特徴が下流タスクで説明可能なパフォーマンスを提供することを示している。
論文参考訳（メタデータ） (2021-04-21T12:01:49Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Self-Supervised Representation Learning for Detection of ACL Tear Injury in Knee MR Videos [18.54362818156725]
本稿では,MRビデオクリップから伝達可能な特徴を学習するための自己教師付き学習手法を提案する。我々の知る限りでは、MRビデオから損傷分類タスクを実行する教師付き学習モデルには、モデルによる決定についての説明がない。
論文参考訳（メタデータ） (2020-07-15T15:35:47Z)
Recurrent and Spiking Modeling of Sparse Surgical Kinematics [0.8458020117487898]
ますます多くの研究が、手術ロボットが捉えたビデオやキネマティックなデータを機械学習で分析している。本研究では,同様のスキルレベルの外科医を予測するために,キネマティックデータのみを用いることの可能性を検討する。本報告では, 運動特性のみに基づいて, シミュレーションエクササイズにおいて, ほぼ完全スコアの手術者を特定することが可能である。
論文参考訳（メタデータ） (2020-05-12T15:41:45Z)
LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文参考訳（メタデータ） (2020-04-21T09:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。