論文の概要: Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction
- arxiv url: http://arxiv.org/abs/2602.17689v1
- Date: Fri, 06 Feb 2026 01:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.525246
- Title: Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction
- Title(参考訳): ドメイン不変なマルチモーダルマスケッド再構成を用いた医用ビジョン・ランゲージモデルのロバスト事前評価
- Authors: Melika Filvantorkaman, Mohsen Piri,
- Abstract要約: マスク付き視覚言語学習に目標を明示的に組み込んだ自己教師型事前学習フレームワークであるRobust Multi-Modal Masked Reconstruction (Robust-MMR)を提案する。
VQA-RAD, クロスドメイン画像テキスト分類 (MELINDA), 堅牢画像キャプチャ検索 (ROCO) などである。
以上の結果から,事前トレーニング中にロバスト性を明確にモデル化することで,実世界展開における医療ビジョン言語表現の信頼性が向上することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision-language models show strong potential for joint reasoning over medical images and clinical text, but their performance often degrades under domain shift caused by variations in imaging devices, acquisition protocols, and reporting styles. Existing multi-modal pre-training methods largely overlook robustness, treating it as a downstream adaptation problem. In this work, we propose Robust Multi-Modal Masked Reconstruction (Robust-MMR), a self-supervised pre-training framework that explicitly incorporates robustness objectives into masked vision-language learning. Robust-MMR integrates asymmetric perturbation-aware masking, domain-consistency regularization, and modality-resilience constraints to encourage domain-invariant representations. We evaluate Robust-MMR on multiple medical vision-language benchmarks, including medical visual question answering (VQA-RAD, SLAKE, VQA-2019), cross-domain image-text classification (MELINDA), and robust image-caption retrieval (ROCO). Robust-MMR achieves 78.9% cross-domain accuracy on VQA-RAD, outperforming the strongest baseline by 3.8 percentage points, and reaches 74.6% and 77.0% accuracy on SLAKE and VQA-2019, respectively. Under perturbed evaluation, Robust-MMR improves VQA-RAD accuracy from 69.1% to 75.6%. For image-text classification, cross-domain MELINDA accuracy increases from 70.3% to 75.2%, while retrieval experiments show a reduction in mean rank degradation from over 16 to 4.1 under perturbation. Qualitative results further demonstrate improved clinical reasoning for disease detection and structural abnormality assessment. These findings show that explicitly modeling robustness during pre-training leads to more reliable and transferable medical vision-language representations for real-world deployment.
- Abstract(参考訳): 医用視覚言語モデルは、医用画像と臨床用テキストに対する共同推論の強い可能性を示すが、画像装置、取得プロトコル、報告スタイルの違いによるドメインシフトにより、その性能は低下することが多い。
既存のマルチモーダル事前学習手法は、主にロバスト性を見落とし、下流適応問題として扱う。
本研究では,ロバスト・マルチモーダル・マスケッド・リコンストラクション(Robust-MMR)を提案する。
Robust-MMRは、非対称な摂動対応マスキング、ドメイン整合正則化、およびモダリティ抵抗性制約を統合し、ドメイン不変表現を奨励する。
VQA-RAD, SLAKE, VQA-2019), クロスドメイン画像テキスト分類 (MELINDA), 堅牢画像キャプチャ検索 (ROCO) などである。
Robust-MMRはVQA-RADで78.9%のクロスドメイン精度を達成し、最強のベースラインを3.8ポイント上回り、SLAKEとVQA-2019で74.6%、77.0%の精度に達した。
摂動評価では、ロバスト-MMRはVQA-RADの精度を69.1%から75.6%に改善する。
画像テキスト分類では、クロスドメインのMELINDA精度は70.3%から75.2%に向上し、検索実験では摂動下での平均ランク劣化が16から4.1に減少している。
質的な結果はさらに, 疾患検出および構造異常評価のための臨床理由の改善が示された。
これらの結果から,事前トレーニング中にロバスト性を明確にモデル化することで,実世界展開のための医療ビジョン言語表現がより信頼性が高く,伝達しやすいことが示唆された。
関連論文リスト
- A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - SAMM2D: Scale-Aware Multi-Modal 2D Dual-Encoder for High-Sensitivity Intracrania Aneurysm Screening [0.0]
本稿では,RSNAの頭蓋内動脈瘤データセット上でAUC0.686を達成するデュアルエンコーダフレームワークであるSAMM2Dを紹介する。
以上の結果から,将来の医療画像は,より複雑な拡張パイプラインよりも,強い事前訓練の恩恵を受ける可能性が示唆された。
論文 参考訳(メタデータ) (2025-12-20T01:44:30Z) - Uncertainty-Aware Domain Adaptation for Vitiligo Segmentation in Clinical Photographs [4.19421520851419]
治療反応の経時的モニタリングには, 日常的な臨床写真における精査範囲の正確な定量化が不可欠である。
我々は,ISIC 2019データセット上でのドメイン適応型事前学習とROIに基づく二重タスク損失を組み合わせ,背景雑音を抑制するデータ効率のトレーニング戦略を提案する。
本フレームワークは破滅的障害をゼロに高い信頼性を示し,診断可能なエントロピーマップを提供し,臨床検査のための曖昧な領域を同定する。
論文 参考訳(メタデータ) (2025-12-12T18:56:21Z) - Mask What Matters: Controllable Text-Guided Masking for Self-Supervised Medical Image Analysis [2.6554246520306624]
Mask What Mattersは、自己監督型医療画像分析のためのコントロール可能なテキスト誘導マスキングフレームワークである。
既存のMIM法を一貫して上回り、分類精度で最大3.1ポイントの利得を得る。
これらの改善は、全体のマスキング比を著しく低くする。
論文 参考訳(メタデータ) (2025-09-27T02:26:56Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Image Quality Assessment for Machines: Paradigm, Large-scale Database, and Models [60.356842878501254]
マシンビジョンシステム(MVS)は、視覚の悪条件下での性能劣化に対して本質的に脆弱である。
画像劣化がMVS性能に与える影響を定量的に評価するマシン中心画像品質評価(MIQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:07:24Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable? [0.9626666671366837]
我々は、複数の医療画像データセットに複数の摂動を適用した汚職ベンチマークであるMediMeta-Cを紹介する。
本稿では,事前訓練されたMVLMの視覚的エンコーダ適応であるRobustMedCLIPを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:08:31Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Robust and Generalisable Segmentation of Subtle Epilepsy-causing
Lesions: a Graph Convolutional Approach [1.180462901068842]
FCD(Foccal cortical dysplasia)は薬剤抵抗性てんかんの主要な原因であり、手術で治療できる。
そのため、手動の傷口マスクは高価で、限定的であり、ラッター間変動が大きい。
本稿では,グラフ畳み込みネットワーク(GCN)を用いたセマンティックセグメンテーション(セマンティックセグメンテーション,セマンティックセグメンテーション,セマンティックセグメンテーション)の手法を提案する。
論文 参考訳(メタデータ) (2023-06-02T08:56:56Z) - Automated SSIM Regression for Detection and Quantification of Motion
Artefacts in Brain MR Images [54.739076152240024]
磁気共鳴脳画像における運動アーチファクトは重要な問題である。
MR画像の画質評価は,臨床診断に先立って基本的である。
構造類似度指数(SSIM)回帰に基づく自動画像品質評価法が提案されている。
論文 参考訳(メタデータ) (2022-06-14T10:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。