論文の概要: MedCLM: Learning to Localize and Reason via a CoT-Curriculum in Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.04477v1
- Date: Mon, 06 Oct 2025 04:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.677831
- Title: MedCLM: Learning to Localize and Reason via a CoT-Curriculum in Medical Vision-Language Models
- Title(参考訳): MedCLM:医学的視覚・言語モデルにおけるCoT-Curriculumによるローカライズと推論の学習
- Authors: Soo Yong Kim, Suin Cho, Vincent-Daniel Yun, Gyeongyeon Hwang,
- Abstract要約: 検出データセットを大規模医療視覚質問応答(VQA)データとChain-of-Thought(CoT)推論に変換する自動パイプラインであるMedCLMを紹介する。
視覚的接地のための明示的な病変箱を備えた簡易な段階,暗黙的な局所化を促す中段階,弱教師付き推論のためのハードステージからなる総合的なCoT-Curriculum戦略を提案する。
- 参考スコア(独自算出の注目度): 0.11666234644810893
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Bridging clinical diagnostic reasoning with AI remains a central challenge in medical imaging. We introduce MedCLM, an automated pipeline that converts detection datasets into large-scale medical visual question answering (VQA) data with Chain-of-Thought (CoT) reasoning by linking lesion boxes to organ segmentation and structured rationales. These contextual signals enable medical vision-language models to generate question-answer pairs with step-by-step reasoning. To utilize this data effectively, we propose an Integrated CoT-Curriculum Strategy composed of an Easy stage with explicit lesion boxes for visual grounding, a Medium stage that encourages implicit localization, and a Hard stage for weakly supervised reasoning. Experimental results demonstrate that MedCLM attains state-of-the-art performance on several medical VQA benchmarks, providing a scalable framework for developing clinically aligned medical vision-language models.
- Abstract(参考訳): AIによる臨床診断推論のブリッジは、医用画像における中心的な課題である。
我々は,検出データセットを大規模医用視覚質問応答(VQA)データに変換する自動パイプラインであるMedCLMを紹介した。
これらの文脈信号により、医療ビジョン言語モデルでは、ステップバイステップの推論を伴う質問応答ペアを生成することができる。
このデータを効果的に活用するために、視覚的接地のための明示的な病変箱を備えた簡易なステージと、暗黙的な局所化を促進する中段階と、弱教師付き推論のためのハードステージからなる統合的なCoT-Curriculum Strategyを提案する。
MedCLMは、いくつかの医療用VQAベンチマークで最先端のパフォーマンスを達成し、臨床に整合した医療用ビジョン言語モデルを開発するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis [0.9944647907864256]
臨床的に強化されたダイナミック・ソフト・ラベルと医用グラフィカル・アライメントを統合した新しいアプローチを提案する。
われわれのアプローチは、医療用CLIPトレーニングパイプラインに容易に統合され、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-28T08:00:18Z) - PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging [6.411386758550256]
PRS-Medは、視覚言語モデルとセグメンテーション機能を統合し、正確なセグメンテーションマスクとそれに対応する空間推論出力の両方を生成するフレームワークである。
MMRSデータセットは、医療画像における位置推論データの欠如に対処するために、多様な空間的な質問応答ペアを提供する。
論文 参考訳(メタデータ) (2025-05-17T06:42:28Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。