論文の概要: MedGround: Bridging the Evidence Gap in Medical Vision-Language Models with Verified Grounding Data
- arxiv url: http://arxiv.org/abs/2601.06847v1
- Date: Sun, 11 Jan 2026 10:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.027933
- Title: MedGround: Bridging the Evidence Gap in Medical Vision-Language Models with Verified Grounding Data
- Title(参考訳): MedGround: 正確なグラウンドデータを用いた医療ビジョン-言語モデルにおけるエビデンスギャップのブリッジ化
- Authors: Mengmeng Zhang, Xiaoping Wu, Hao Luo, Fan Wang, Yisheng Lv,
- Abstract要約: セグメンテーションリソースを高品質な医療参照基盤データに変換する自動パイプラインであるMedGroundを紹介する。
我々はまた、MedGround-35Kという新しいマルチモーダル医療データセットを提示する。
- 参考スコア(独自算出の注目度): 32.65971100171597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) can generate convincing clinical narratives, yet frequently struggle to visually ground their statements. We posit this limitation arises from the scarcity of high-quality, large-scale clinical referring-localization pairs. To address this, we introduce MedGround, an automated pipeline that transforms segmentation resources into high-quality medical referring grounding data. Leveraging expert masks as spatial anchors, MedGround precisely derives localization targets, extracts shape and spatial cues, and guides VLMs to synthesize natural, clinically grounded queries that reflect morphology and location. To ensure data rigor, a multi-stage verification system integrates strict formatting checks, geometry- and medical-prior rules, and image-based visual judging to filter out ambiguous or visually unsupported samples. Finally, we present MedGround-35K, a novel multimodal medical dataset. Extensive experiments demonstrate that VLMs trained with MedGround-35K consistently achieve improved referring grounding performance, enhance multi-object semantic disambiguation, and exhibit strong generalization to unseen grounding settings. This work highlights MedGround as a scalable, data-driven approach to anchor medical language to verifiable visual evidence. Dataset and code will be released publicly upon acceptance.
- Abstract(参考訳): VLM(Vision-Language Models)は、説得力のある臨床物語を生成できるが、しばしば彼らの主張を視覚的に理解するのに苦労する。
この制限は、高品質で大規模な臨床参照-局所化ペアの不足から生じていると仮定する。
この問題を解決するために、セグメント化リソースを高品質な医療参照基盤データに変換する自動パイプラインであるMedGroundを紹介した。
専門家のマスクを空間的アンカーとして活用することで、MedGroundは正確な位置決めターゲットを導き、形状と空間的手がかりを抽出し、VLMを誘導し、形態や位置を反映する自然で臨床的に根ざしたクエリを合成する。
データ厳密性を確保するため、多段階認証システムは厳密なフォーマットチェック、幾何学的および医学的基準、画像に基づく視覚的判断を統合し、曖昧または視覚的に支持されないサンプルをフィルタリングする。
最後に、新しいマルチモーダル医療データセットであるMedGround-35Kを紹介する。
MedGround-35Kで訓練されたVLMは、参照接地性能の向上を一貫して達成し、多目的意味の曖昧さを高め、目に見えない接地環境への強力な一般化を示す。
この研究は、MedGroundを、医療言語を検証可能な視覚的証拠に固定するスケーラブルでデータ駆動のアプローチとして強調している。
データセットとコードは受理後、公開される。
関連論文リスト
- Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset [18.29385508780721]
Med-GLIPは、Med-GLIP-5Mでトレーニングされたモダリティ対応の基盤フレームワークである。
多様なトレーニングデータから階層的意味理解を暗黙的に取得する。
複数のグラウンドベンチマークで、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-14T11:02:38Z) - Describe Anything in Medical Images [32.785523415007]
医用画像の領域別キャプションに大規模視覚言語モデルを活用する,初の包括的フレームワークであるMedDAMを提案する。
MedDAMは特定の画像モダリティに合わせて医療専門家が設計したプロンプトを採用し、堅牢な評価ベンチマークを確立する。
本ベンチマークは,属性レベル検証タスクによる臨床事実性に着目し,MedDAMと他の大規模視覚言語モデルの両方を評価する。
論文 参考訳(メタデータ) (2025-05-09T05:45:31Z) - MedicalNarratives: Connecting Medical Vision and Language with Localized Narratives [11.242775987217032]
MedicalNarrativesは、Think-Aloudの研究で収集されたデータと、本質的に類似した医療教育ビデオから収集されたデータセットである。
我々のデータセットは、ビデオと記事から4.7Mの画像テキストペアを含み、100万のサンプルには、トレースとバウンディングボックスの形で密集したアノテーションが含まれている。
MedicalNarrativesの有用性を評価するために、12の医療ドメインにまたがるデータセットを用いて、CLIPアーキテクチャに基づいてGenMedClipをトレーニングする。
論文 参考訳(メタデータ) (2025-01-07T23:32:05Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。