論文の概要: VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs
- arxiv url: http://arxiv.org/abs/2603.09109v2
- Date: Wed, 11 Mar 2026 04:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.258111
- Title: VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs
- Title(参考訳): VIVID-Med:LLM-Supervised Structured Pretraining for Deployable Medical ViTs
- Authors: Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu,
- Abstract要約: VIVID-Medは,凍結した大言語モデル(LLM)を構造化意味論的教師として活用し,医療用ビジョントランスフォーマー(ViT)を事前訓練する新しいフレームワークである。
VIVID-Medは、臨床所見をUnified MedicalNIST (UMS) を介して検証可能なフィールド状態ペアに翻訳し、応答性を考慮したマスキングを用いて最適化に焦点を当てる。
マクロAUCは0.8588で、500倍少ないデータを使用しながら、BiomedCLIPを+6.65ポイント上回る。
- 参考スコア(独自算出の注目度): 24.283989257873085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pretraining has driven significant progress in medical image analysis. However, current methods typically supervise visual encoders using one-hot labels or free-form text, neither of which effectively captures the complex semantic relationships among clinical findings. In this study, we introduce VIVID-Med, a novel framework that leverages a frozen large language model (LLM) as a structured semantic teacher to pretrain medical vision transformers (ViTs). VIVID-Med translates clinical findings into verifiable JSON field-state pairs via a Unified Medical Schema (UMS), utilizing answerability-aware masking to focus optimization. It then employs Structured Prediction Decomposition (SPD) to partition cross-attention into orthogonality-regularized query groups, extracting complementary visual aspects. Crucially, the LLM is discarded post-training, yielding a lightweight, deployable ViT-only backbone. We evaluated VIVID-Med across multiple settings: on CheXpert linear probing, it achieves a macro-AUC of 0.8588, outperforming BiomedCLIP by +6.65 points while using 500x less data. It also demonstrates robust zero-shot cross-domain transfer to NIH ChestX-ray14 (0.7225 macro-AUC) and strong cross-modality generalization to CT, achieving 0.8413 AUC on LIDC-IDRI lung nodule classification and 0.9969 macro-AUC on OrganAMNIST 11-organ classification. VIVID-Med offers a highly efficient, scalable alternative to deploying resource-heavy vision-language models in clinical settings.
- Abstract(参考訳): 視覚言語による事前訓練は、医用画像解析において大きな進歩をもたらした。
しかし、現在の方法では、1ホットラベルやフリーフォームテキストを使って視覚エンコーダを監督するが、どちらも臨床所見間の複雑な意味的関係を効果的に捉えていない。
本研究では,凍結型大規模言語モデル(LLM)を構造化意味教師として活用し,医療用ビジョントランスフォーマー(ViT)の事前訓練を行う新しいフレームワークであるVIVID-Medを紹介する。
VIVID-Medは、臨床所見をUnified Medical Schema (UMS)を介して検証可能なJSONフィールドステートペアに変換し、応答性を考慮したマスキングを用いて最適化に焦点を当てる。
次に、構造化予測分解(SPD)を使用して、相互アテンションを直交正規化クエリグループに分割し、補完的な視覚的側面を抽出する。
重要な点として、LLMは訓練後に廃棄され、軽量でデプロイ可能なViTのみのバックボーンとなる。
我々は,VIVID-Medを複数の設定で評価した。CheXpert線形探索では0.8588のマクロAUCを実現し,500倍少ないデータを使用しながら,BiomedCLIPを+6.65ポイント上回った。
また、NIH ChestX-ray14 (0.7225 macro-AUC)への堅牢なゼロショットクロスドメイン転送とCTへの強力なクロスモーダル一般化を示し、LIDC-IDRI肺結節分類では0.8413 AUC、OrganAMNIST 11臓器分類では0.9969 macro-AUCを達成している。
VIVID-Medは、リソースの多いビジョン言語モデルを臨床環境にデプロイする際の、非常に効率的でスケーラブルな代替手段を提供する。
関連論文リスト
- Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - MRG-R1: Reinforcement Learning for Clinically Aligned Medical Report Generation [23.22547135801011]
医療報告生成のための意味駆動型強化学習(SRL)手法を提案する。
SRLは、言語スタイルの模倣を超えた臨床的正確性に基づく学習を促進する。
IU X線とMIMIC-CXRの2つのデータセットを用いたSRLを用いた医療報告生成の評価を行った。
論文 参考訳(メタデータ) (2025-12-18T03:57:55Z) - DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文 参考訳(メタデータ) (2025-11-08T11:08:27Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays [8.019362739504087]
視覚言語による事前訓練は画像とテキストのアライメントが進んでいるが、臨床報告の不均一性によって放射線学の進歩が制限されている。
我々は,大規模言語モデル (LLM) エンコーダが,多様なスタイルにまたがる堅牢な臨床表現を提供できるかどうかを問う。
胸部X線レポート用のドメイン適応エンコーダLLM2VEC4CXRと、このエンコーダとビジョンバックボーンを結合するデュアルトウワーフレームワークLLM2CLIP4CXRを紹介する。
論文 参考訳(メタデータ) (2025-09-17T09:44:59Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。