論文の概要: Learning to Adapt Foundation Model DINOv2 for Capsule Endoscopy Diagnosis
- arxiv url: http://arxiv.org/abs/2406.10508v2
- Date: Sun, 30 Jun 2024 14:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:21:08.960207
- Title: Learning to Adapt Foundation Model DINOv2 for Capsule Endoscopy Diagnosis
- Title(参考訳): カプセル内視鏡診断のための基礎モデルDINOv2の学習
- Authors: Bowen Zhang, Ying Chen, Long Bai, Yan Zhao, Yuxiang Sun, Yixuan Yuan, Jianhua Zhang, Hongliang Ren,
- Abstract要約: カスタマイズを容易にするローランク適応(LoRA)技術を用いたアダプティブ基礎モデル(Adapt foundation model)という簡易なアプローチを導入する。
従来の微調整方法とは異なり、我々は特定の外科領域の知識を吸収するように設計されたLoRAレイヤーを含む。
本ソリューションは,カプセル内視鏡診断に基礎モデルを適用できることを実証するものである。
- 参考スコア(独自算出の注目度): 36.403320243871526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have become prominent in computer vision, achieving notable success in various tasks. However, their effectiveness largely depends on pre-training with extensive datasets. Applying foundation models directly to small datasets of capsule endoscopy images from scratch is challenging. Pre-training on broad, general vision datasets is crucial for successfully fine-tuning our model for specific tasks. In this work, we introduce a simplified approach called Adapt foundation models with a low-rank adaptation (LoRA) technique for easier customization. Our method, inspired by the DINOv2 foundation model, applies low-rank adaptation learning to tailor foundation models for capsule endoscopy diagnosis effectively. Unlike traditional fine-tuning methods, our strategy includes LoRA layers designed to absorb specific surgical domain knowledge. During the training process, we keep the main model (the backbone encoder) fixed and focus on optimizing the LoRA layers and the disease classification component. We tested our method on two publicly available datasets for capsule endoscopy disease classification. The results were impressive, with our model achieving 97.75% accuracy on the Kvasir-Capsule dataset and 98.81% on the Kvasirv2 dataset. Our solution demonstrates that foundation models can be adeptly adapted for capsule endoscopy diagnosis, highlighting that mere reliance on straightforward fine-tuning or pre-trained models from general computer vision tasks is inadequate for such specific applications.
- Abstract(参考訳): ファンデーションモデルはコンピュータビジョンにおいて顕著になり、様々なタスクで顕著な成功を収めている。
しかし、その有効性は、広範囲なデータセットによる事前トレーニングに大きく依存する。
基礎モデルをスクラッチからカプセル内視鏡画像の小さなデータセットに直接適用することは困難である。
幅広い一般的なビジョンデータセットの事前トレーニングは、特定のタスクのためにモデルを微調整するのに不可欠です。
本研究では,カスタマイズを容易にするローランク適応(LoRA)技術を用いたアダプティブ・ファンデーション・モデル(Adapt foundation model)を提案する。
DINOv2ファンデーションモデルにインスパイアされた本手法は,カプセル内視鏡診断を効果的に行うための基礎モデルに低ランク適応学習を適用した。
従来の微調整方法とは異なり、我々は特定の外科領域の知識を吸収するように設計されたLoRAレイヤーを含む。
トレーニングプロセス中、メインモデル(バックボーンエンコーダ)を固定し、LoRA層と疾患分類成分の最適化に集中する。
本手法をカプセル内視鏡疾患分類のための2つの公開データセットで検証した。
その結果、我々のモデルはKvasir-Capsuleデータセットで97.75%、Kvasirv2データセットで98.81%の精度で得られた。
本ソリューションは, 基礎モデルがカプセル内視鏡診断に適応できることを示し, 一般的なコンピュータビジョンタスクからの直感的な微調整や事前訓練によるモデルへの依存が, このような特定の応用には不十分であることを強調した。
関連論文リスト
- LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。
我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。
LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文 参考訳(メタデータ) (2024-09-29T03:56:21Z) - Text-guided Foundation Model Adaptation for Long-Tailed Medical Image Classification [4.6651139122498]
医学的文脈では、まれな疾患のラベルの少ない長いデータセットにおける不均衡なデータ分布は、ディープラーニングモデルの診断精度を著しく損なう。
最近のマルチモーダルテキスト画像管理基盤モデルは、効率的な表現学習を通じて、データの不足に対する新しい解決策を提供する。
長期医療画像分類のための新しいテキスト誘導基礎モデル適応法(TFA-LT)を提案する。
提案手法は27.1%の精度向上を実現し,本領域における基礎モデル適用の可能性を強調した。
論文 参考訳(メタデータ) (2024-08-27T04:18:18Z) - RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports [19.915033191502328]
Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
論文 参考訳(メタデータ) (2024-05-23T03:20:51Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Meta Transfer of Self-Supervised Knowledge: Foundation Model in Action
for Post-Traumatic Epilepsy Prediction [0.6291443816903801]
基礎モデルに新たなトレーニング戦略を導入する。
提案手法は,小規模臨床データセットのタスク性能を著しく向上することを示す。
さらに, 基礎モデルの一般化性の向上を実証した。
論文 参考訳(メタデータ) (2023-12-21T07:42:49Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Self-Adaptive Transfer Learning for Multicenter Glaucoma Classification
in Fundus Retina Images [9.826586293806837]
マルチセンタデータセット間のドメインギャップを埋めるための自己適応型トランスファーラーニング(SATL)戦略を提案する。
具体的には、ソースドメイン上で事前訓練されたDLモデルのエンコーダを使用して、再構成モデルのエンコーダを初期化する。
以上の結果から,SATL法はプライベートおよび2つの公共緑内障診断データセット間の領域適応作業に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-07T05:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。