論文の概要: ClinKD: Cross-Modal Clinic Knowledge Distiller For Multi-Task Medical Images
- arxiv url: http://arxiv.org/abs/2502.05928v1
- Date: Sun, 09 Feb 2025 15:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:31:59.671878
- Title: ClinKD: Cross-Modal Clinic Knowledge Distiller For Multi-Task Medical Images
- Title(参考訳): ClinKD:マルチタスク・メディカルイメージのためのクロスモーダル・クリニック・ナレッジ・ディステラ
- Authors: Hongyu Ge, Longkun Hao, Zihui Xu, Zhenxin Lin, Bin Li, Shoujun Zhou, Hongjin Zhao, Yihang Liu,
- Abstract要約: Med-VQA(Medical Visual Question Answering)は、より広範なVQA(Visual Question Answering)ドメインにおける重要なサブタスクである。
我々は,ClinKDモデルを導入し,モデル位置エンコーディングと多角化学習プロセスを取り入れた。
我々は、Med-GRIT-270kデータセット上で、最先端の新たなパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 4.353855760968461
- License:
- Abstract: Med-VQA (Medical Visual Question Answering) is a crucial subtask within the broader VQA (Visual Question Answering) domain. This task requires a visual question answering system to analyze the provided image and corresponding question,offering reasonable analysis and suggestions to assist medical professionals in making pathological diagnoses, or ideally, enabling the system to independently provide correct diagnoses. Furthermore, more advanced Med-VQA tasks involve Referring and Grounding, which not only require the system to accurately comprehend medical images but also to pinpoint specific biological locations within those images. While many large pre-trained models have demonstrated substantial VQA capabilities,challenges persist in the medical imaging domain. The intricacy of biological features in medical images and the scarcity of high-quality medical image datasets, combined with the fact that current models are not tailored for the medical field in terms of architecture and training paradigms, hinder the full exploitation of model generalization. This results in issues such as hallucination in Visual Grounding. In this paper, we introduce the ClinKD model, which incorporates modifications to model position encoding and a diversified training process. Initially, we enhance the model's ability to perceive image and modality variations by using Med-CLIP Guided Rotary Position Embedding. Subsequently, we leverage distillation to provide prior knowledge to the model before using complete training data. Additionally, the feedback-based training process during the formal training phase further enhances data utilization. Notably, under unchanged evaluation protocols, we achieve a new state-of-the-art performance on the Med-GRIT-270k dataset, and the Med-CLIP Guided Rotary Position Embedding approach presents potential for generalizing to universal model position encoding.
- Abstract(参考訳): Med-VQA(Medical Visual Question Answering)は、VQA(Visual Question Answering)ドメイン内の重要なサブタスクである。
この課題は、提供された画像とそれに対応する質問を分析するために視覚的質問応答システムを必要とし、医師が病理診断を行う際に適切な分析と提案を行うか、または理想的には、システムが独立して正しい診断を行えるようにする。
さらに、より高度なMed-VQAタスクには、参照とグラウンディングが含まれており、システムは医療画像の正確な理解だけでなく、それらの画像内の特定の生物学的位置の特定も必要としている。
多くの大きな事前訓練されたモデルでは相当なVQA能力を示しているが、カレンゲは医用画像領域に留まっている。
医用画像の生物学的特徴の複雑さと高品質な医用画像データセットの不足は、現在のモデルが建築や訓練パラダイムの点で医学分野に適合していないという事実と相まって、モデル一般化の完全な活用を妨げる。
これにより視覚的接地における幻覚などの問題が生じる。
本稿では,ClinKDモデルを紹介する。ClinKDモデルには,モデル位置エンコーディングと多角化学習プロセスの変更が組み込まれている。
まず,Med-CLIP誘導ロータリー位置埋め込みを用いて,画像とモダリティの変化を知覚するモデルの能力を高める。
その後,完全トレーニングデータを使用する前に,蒸留を利用してモデルに事前知識を提供する。
さらに、フォーマルなトレーニングフェーズにおけるフィードバックベースのトレーニングプロセスにより、データ利用がさらに向上する。
特に,Med-GRIT-270kデータセットにおける新しい最先端性能を実現し,Med-CLIP Guided Rotary Position Embeddingアプローチにより,汎用モデル位置符号化への一般化の可能性を示す。
関連論文リスト
- Towards a vision foundation model for comprehensive assessment of Cardiac MRI [11.838157772803282]
心臓磁気共鳴画像(CMR)評価のための視覚基礎モデルを提案する。
CMRワークフローに典型的な9つの臨床的タスクについて、教師付き方法でモデルを微調整する。
すべてのタスクにおいて、ラベル付きデータセットサイズの範囲で、精度と堅牢性が改善されたことを実証する。
論文 参考訳(メタデータ) (2024-10-02T15:32:01Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Pick the Best Pre-trained Model: Towards Transferability Estimation for
Medical Image Segmentation [20.03177073703528]
転送学習は、難しい医用画像分割タスクのために、ディープニューラルネットワークをトレーニングする上で重要なテクニックである。
医用画像セグメンテーションのための新しい転送可能性推定法を提案する。
医用画像のセグメンテーションにおける転送可能性推定のアルゴリズムを網羅した手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:58:18Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - A Trustworthy Framework for Medical Image Analysis with Deep Learning [71.48204494889505]
TRUDLMIAは医用画像解析のための信頼できるディープラーニングフレームワークである。
新型コロナウイルス(COVID-19)などの公衆衛生危機への対応に深層学習の活用を推進していくため、研究者や臨床医を支援することが期待されている。
論文 参考訳(メタデータ) (2022-12-06T05:30:22Z) - Medical Image Understanding with Pretrained Vision Language Models: A
Comprehensive Study [8.547751745702156]
我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。
医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
論文 参考訳(メタデータ) (2022-09-30T15:06:13Z) - Domain Generalization on Medical Imaging Classification using Episodic
Training with Task Augmentation [62.49837463676111]
本稿では,医用画像分類におけるタスク強化によるエピソードトレーニングの新たな手法を提案する。
実際の医療展開において、限られた数のソースドメインによって動機付けられ、ユニークなタスクレベルのオーバーフィッティングを検討します。
論文 参考訳(メタデータ) (2021-06-13T03:56:59Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。