論文の概要: Whether and When does Endoscopy Domain Pretraining Make Sense?
- arxiv url: http://arxiv.org/abs/2303.17636v1
- Date: Thu, 30 Mar 2023 18:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:25:14.252483
- Title: Whether and When does Endoscopy Domain Pretraining Make Sense?
- Title(参考訳): 内視鏡領域の予知は意味を成すか?
- Authors: Dominik Bati\'c, Felix Holm, Ege \"Ozsoy, Tobias Czempiel, Nassir
Navab
- Abstract要約: 自動内視鏡ビデオ解析は、医療コンピュータビジョンにおいて難しい課題である。
難易度は、手術シーンの複雑さと十分な量の注釈データがないことから生じる。
内視鏡前訓練型視覚変換器EndoViT(EndoViT)について紹介する。
- 参考スコア(独自算出の注目度): 39.11134330259464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated endoscopy video analysis is a challenging task in medical computer
vision, with the primary objective of assisting surgeons during procedures. The
difficulty arises from the complexity of surgical scenes and the lack of a
sufficient amount of annotated data. In recent years, large-scale pretraining
has shown great success in natural language processing and computer vision
communities. These approaches reduce the need for annotated data, which is
always a concern in the medical domain. However, most works on endoscopic video
understanding use models pretrained on natural images, creating a domain gap
between pretraining and finetuning. In this work, we investigate the need for
endoscopy domain-specific pretraining based on downstream objectives. To this
end, we first collect Endo700k, the largest publicly available corpus of
endoscopic images, extracted from nine public Minimally Invasive Surgery (MIS)
datasets. Endo700k comprises more than 700,000 unannotated raw images. Next, we
introduce EndoViT, an endoscopy pretrained Vision Transformer (ViT). Through
ablations, we demonstrate that domain-specific pretraining is particularly
beneficial for more complex downstream tasks, such as Action Triplet Detection,
and less effective and even unnecessary for simpler tasks, such as Surgical
Phase Recognition. We will release both our code and pretrained models upon
acceptance to facilitate further research in this direction.
- Abstract(参考訳): 自動内視鏡映像解析は、手術中の外科医の補助を主な目的とし、医療用コンピュータビジョンにおいて困難な課題である。
この困難は、手術シーンの複雑さと十分な量の注釈データがないことから生じる。
近年、大規模事前学習は自然言語処理とコンピュータビジョンのコミュニティで大きな成功を収めている。
これらのアプローチは、常に医学領域の関心事である注釈付きデータの必要性を減らす。
しかし、ほとんどの作業は、自然画像で事前学習されたビデオ理解モデルを使用しており、事前学習と微調整の間のドメインギャップを生んでいる。
そこで本研究では,下流の目的に基づいた内視鏡領域特異的予習の必要性について検討する。
そこで我々はまず,9つのMISデータセットから抽出した内視鏡画像の最大公用コーパスであるEndo700kを収集した。
endo700kには70万点以上の無注の生画像が含まれている。
次に、内視鏡トレーニング済みビジョントランス(ViT)であるEndoViTを紹介する。
アブレーションにより,より複雑な下流課題(アクショントリプレット検出など)にはドメイン特異的事前訓練が特に有用であり,手術相認識などより単純なタスクには効果が低く不要であることが示された。
弊社のコードと事前訓練済みのモデルの両方を受諾時にリリースし、この方向のさらなる研究を促進する。
関連論文リスト
- SurgicaL-CD: Generating Surgical Images via Unpaired Image Translation with Latent Consistency Diffusion Models [1.6189876649941652]
現実的な手術画像を生成するために, 連続拡散法であるemphSurgicaL-CDを導入する。
以上の結果から,本手法はGANや拡散に基づく手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-19T09:19:25Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Self-Supervised Pre-Training with Contrastive and Masked Autoencoder
Methods for Dealing with Small Datasets in Deep Learning for Medical Imaging [8.34398674359296]
医用画像の深層学習は、診断ミスのリスクを最小限に抑え、放射線医の作業量を減らし、診断を加速する可能性がある。
このようなディープラーニングモデルのトレーニングには,すべてのトレーニングサンプルに対するアノテーションを備えた,大規模かつ正確なデータセットが必要です。
この課題に対処するために、ディープラーニングモデルは、自己教師付き学習の分野からのメソッドを使用してアノテーションなしで、大規模な画像データセット上で事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-08-12T11:31:01Z) - CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual
Question Localized-Answering in Robotic Surgery [14.52406034300867]
手術用視覚質問定位回答システム(VQLA)は、医療学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。
手術シナリオにおけるVQLAに対するCAT-ViL(Co-Attention gaTed Vision-Language)を組み込んだエンドツーエンドトランスフォーマを提案する。
提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
論文 参考訳(メタデータ) (2023-07-11T11:35:40Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - FetReg2021: A Challenge on Placental Vessel Segmentation and
Registration in Fetoscopy [52.3219875147181]
2-Twin Transfusion Syndrome (TTTS) に対するレーザー光凝固法が広く採用されている。
このプロシージャは、視野が限られたこと、フェトスコープの操作性が悪いこと、視認性が悪いこと、照明の変動性のために特に困難である。
コンピュータ支援介入(CAI)は、シーン内の重要な構造を特定し、ビデオモザイクを通して胎児の視野を広げることで、外科医に意思決定支援と文脈認識を提供する。
7つのチームがこの課題に参加し、そのモデルパフォーマンスを、6フェットから658ピクセルの注釈付き画像の見当たらないテストデータセットで評価した。
論文 参考訳(メタデータ) (2022-06-24T23:44:42Z) - Domain Generalization on Medical Imaging Classification using Episodic
Training with Task Augmentation [62.49837463676111]
本稿では,医用画像分類におけるタスク強化によるエピソードトレーニングの新たな手法を提案する。
実際の医療展開において、限られた数のソースドメインによって動機付けられ、ユニークなタスクレベルのオーバーフィッティングを検討します。
論文 参考訳(メタデータ) (2021-06-13T03:56:59Z) - Surgical Visual Domain Adaptation: Results from the MICCAI 2020
SurgVisDom Challenge [9.986124942784969]
この研究は、データプライバシの懸念を克服するために、手術における視覚領域適応の可能性を探究する。
特に,外科手術のバーチャルリアリティ(VR)シミュレーションのビデオを用いて,臨床ライクな環境下でのタスク認識アルゴリズムの開発を提案する。
課題参加者によって開発された視覚的ドメイン適応を解決するためのさまざまなアプローチのパフォーマンスを紹介します。
論文 参考訳(メタデータ) (2021-02-26T18:45:28Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。