論文の概要: MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration
- arxiv url: http://arxiv.org/abs/2603.09101v1
- Date: Tue, 10 Mar 2026 02:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.94924
- Title: MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration
- Title(参考訳): MedKCO:知識駆動型認知オーケストレーションによる医用視力訓練
- Authors: Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou,
- Abstract要約: 医用視覚言語事前学習のための知識駆動型認知オーケストレーションを提案する。
我々は,事前学習データの順序付けに,診断感度とクラス内サンプル代表性を取り入れた2段階のカリキュラムを設計する。
本稿では,複数の視覚言語ダウンストリームタスクにおける3つの医療画像シナリオに対する事前学習手法の評価と,複数のカリキュラム学習手法との比較を行った。
- 参考スコア(独自算出の注目度): 10.832093486095255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision-language pretraining (VLP) models have recently been investigated for their generalization to diverse downstream tasks. However, current medical VLP methods typically force the model to learn simple and complex concepts simultaneously. This anti-cognitive process leads to suboptimal feature representations, especially under distribution shift. To address this limitation, we propose a Knowledge-driven Cognitive Orchestration for Medical VLP (MedKCO) that involves both the ordering of the pretraining data and the learning objective of vision-language contrast. Specifically, we design a two level curriculum by incorporating diagnostic sensitivity and intra-class sample representativeness for the ordering of the pretraining data. Moreover, considering the inter-class similarity of medical images, we introduce a self-paced asymmetric contrastive loss to dynamically adjust the participation of the pretraining objective. We evaluate the proposed pretraining method on three medical imaging scenarios in multiple vision-language downstream tasks, and compare it with several curriculum learning methods. Extensive experiments show that our method significantly surpasses all baselines. https://github.com/Mr-Talon/MedKCO.
- Abstract(参考訳): 医用視覚言語事前訓練(VLP)モデルは、近年、下流の様々なタスクに一般化するために研究されている。
しかし、現在の医療用VLP法では、モデルにシンプルで複雑な概念を同時に学習させるのが一般的である。
この反認知的プロセスは、特に分布シフトの下で、最適以下の特徴表現をもたらす。
この制限に対処するために、事前学習データの順序付けと視覚言語コントラストの学習目的の両方を含む知識駆動型医療用VLP(MedKCO)を提案する。
具体的には、事前学習データの順序付けに、診断感度とクラス内サンプル代表性を取り入れた2段階のカリキュラムを設計する。
さらに,医用画像のクラス間類似性を考慮すると,事前学習対象の参加を動的に調整するために,自己ペースト非対称なコントラスト損失を導入する。
本稿では,複数の視覚言語ダウンストリームタスクにおける3つの医療画像シナリオに対する事前学習手法の評価と,複数のカリキュラム学習手法との比較を行った。
実験の結果,本手法は全基準値を大きく上回ることがわかった。
https://github.com/Mr-Talon/MedKCO
関連論文リスト
- GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training [15.790435273150083]
本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-01-02T12:14:41Z) - CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
CLIPの使用は最近、医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - Knowledge Boosting: Rethinking Medical Contrastive Vision-Language
Pre-Training [6.582001681307021]
知識ブースティング・コントラスト・ビジョン・ランゲージ事前学習フレームワーク(KoBo)を提案する。
KoBoは、臨床知識を視覚言語意味一貫性の学習に統合する。
分類,セグメンテーション,検索,意味的関連性を含む8つのタスクに対するフレームワークの効果を検証する実験を行った。
論文 参考訳(メタデータ) (2023-07-14T09:38:22Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - UnICLAM:Contrastive Representation Learning with Adversarial Masking for
Unified and Interpretable Medical Vision Question Answering [7.2486693553383805]
現在のメディカルVQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、クロスモーダル表現を学習する。
本稿では,Unified and Interpretable Medical-VQAモデルであるUnICLAMを提案する。
VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-12-21T02:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。