論文の概要: Cross-modal linkage risk in clinical vision-language models
- arxiv url: http://arxiv.org/abs/2606.02276v1
- Date: Mon, 01 Jun 2026 14:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.18766
- Title: Cross-modal linkage risk in clinical vision-language models
- Title(参考訳): 臨床視覚言語モデルにおけるクロスモーダルリンクリスク
- Authors: Soroosh Tayebi Arasteh, Mahshad Lotfinia, Sven Nebelung, Daniel Truhn,
- Abstract要約: 視覚言語モデル(VLM)は、ペアの胸部X線写真と放射線学レポートに基づいて訓練され、インスタンスレベルの画像レポート対応を保存できる共有埋め込み空間を学習する。
これは、ラジオグラフとレポートが買収後に意図的に分離された設定でプライバシー上のリスクを生じさせる。
我々はこれをイメージ・ツー・レポート検索として定式化し、プライバシーシナリオとしてではなく、パブリック・ペアのコホートを使用してリスクを監査した。
- 参考スコア(独自算出の注目度): 1.828619151598757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) trained on paired chest radiographs and radiology reports learn a shared embedding space that can preserve instance-level image-report correspondence. This poses a privacy risk in settings where radiographs and reports are deliberately kept separate after acquisition, such as image-only data sharing or access-controlled reports, because a de-identified image may be re-linked to its original narrative report through cosine similarity alone. We formalized this as image-to-report retrieval and used public paired cohorts, in which the true pairing is known by design, as ground-truth benchmarks to audit the risk rather than as the privacy scenario. Evaluating VLMs of increasing clinical specialization on 406,241 paired examples from 126,804 patients across MIMIC-CXR (43,793 held-out pairs) and external CheXpert Plus (29,296 pairs), we found that re-linkage rose systematically with specialization: the strongest VLM retrieved the correct report at 15 times chance at a candidate pool of N = 100, 50 times chance at N = 10,000, and well above chance at full-database scale. The signal persisted under pathology-matched hard negatives that removed disease-label shortcuts, indicating correspondence beyond broad diagnostic categories. To reduce it without retraining, we froze both encoders and applied differentially private optimization only to the projection heads defining the alignment layer (epsilon = 0.34, delta = 6x10-6). This reduced Recall@1 by 61.8% at N = 10,000 on MIMIC-CXR and transferred to CheXpert Plus without retraining, while image-side utility was largely preserved: macro AUROC for linear-probe classification across 14 labels shifted only from 79.63% to 79.43%. Targeted DP finetuning of the shared alignment layer can substantially reduce cross-modal re-linkage without materially degrading the image representations that make these models clinically useful.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ペアの胸部X線写真と放射線学レポートに基づいて訓練され、インスタンスレベルの画像レポート対応を保存できる共有埋め込み空間を学習する。
これは、画像のみのデータ共有やアクセス制御レポートのような、画像のみのレポートが買収後に意図的に分離されるような設定において、プライバシー上のリスクが生じる。
我々はこれをイメージ・ツー・レポート・検索として形式化し、プライバシ・シナリオではなくリスクを評価するために、真のペアリングが設計によって知られているパブリック・ペア・コホート(Public paired cohorts)を用いた。
MIMIC-CXR (43,793ペア) およびCheXpert Plus (29,296ペア) の126,804例を対象に, 406,241ペアの臨床専門化を増強するVLMの評価を行った。
このシグナルは病理組織に適合した硬い陰性の下で持続し、疾患標識のショートカットを除去し、広範囲の診断カテゴリーを超えて対応した。
両エンコーダを凍結し,アライメント層を定義する投影ヘッドのみに差分プライベート最適化を適用した(epsilon = 0.34, delta = 6x10-6)。
これにより、リコール@1はMIMIC-CXRでN = 10,000で61.8%減少し、再トレーニングなしでCheXpert Plusに移行した。
共有アライメント層のターゲットDP微調整は、これらのモデルが臨床的に有用となる画像表現を実質的に劣化させることなく、クロスモーダルリリンクを大幅に低減することができる。
関連論文リスト
- Magnification-Invariant Image Classification via Domain Generalization and Stable Sparse Embedding Signatures [0.0]
マグニフィケーションシフトは、あるスケールで訓練されたモデルが、しばしば他のスケールにあまり一般化しないため、頑健な病理組織学分類の大きな障害である。
本研究では, 厳密な患者分離型Let-one-magnification-outプロトコルを用いて, BreaKHisデータセット上でこの問題を評価した。
論文 参考訳(メタデータ) (2026-04-28T16:26:14Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - One-shot synthesis of rare gastrointestinal lesions improves diagnostic accuracy and clinical training [45.49415063761575]
EndoRareは、単一の参照画像から多種多様な高忠実度病変を合成する、ワンショットでリトレーニング不要な生成フレームワークである。
われわれはこの枠組みを4つの稀な病理から検証した。
これらの結果は, コンピュータ支援診断と臨床教育の両方において, 希少なギャップを埋める実践的でデータ効率のよい方法を確立している。
論文 参考訳(メタデータ) (2025-12-30T15:07:09Z) - I Detect What I Don't Know: Incremental Anomaly Learning with Stochastic Weight Averaging-Gaussian for Oracle-Free Medical Imaging [2.384534878752428]
異常ラベルを使わずに,信頼度の高い正規サンプル群を漸進的に拡張する,教師なしのオラクルフリーフレームワークを導入する。
凍結した事前訓練された視覚バックボーンは、小さな畳み込みアダプタで拡張され、無視できる計算オーバーヘッドを伴う高速なドメイン適応が保証される。
COVID-CXRでは、ROC-AUCは0.9489から0.9982に改善され、肺炎CXRでは0.6834から0.8968に上昇し、脳MRIではND-5では0.6041から0.7269に上昇する。
論文 参考訳(メタデータ) (2025-11-05T23:28:14Z) - Revisiting Computer-Aided Tuberculosis Diagnosis [56.80999479735375]
結核(TB)は世界的な健康上の脅威であり、毎年何百万人もの死者を出している。
深層学習を用いたコンピュータ支援結核診断 (CTD) は有望であるが, 限られたトレーニングデータによって進行が妨げられている。
結核X線(TBX11K)データセットは11,200個の胸部X線(CXR)画像とそれに対応するTB領域のバウンディングボックスアノテーションを含む。
このデータセットは、高品質なCTDのための洗練された検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-06T08:27:48Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Generative Adversarial Networks for Weakly Supervised Generation and Evaluation of Brain Tumor Segmentations on MR Images [0.0]
本研究は2次元磁気共鳴画像におけるセグメント異常に対する弱教師付きアプローチを示す。
我々は,癌画像を健全な変種に変換するGAN(Generative Adversarial Network)を訓練する。
非共役な変種は、弱監督的な方法で分割を評価するためにも用いられる。
論文 参考訳(メタデータ) (2022-11-10T00:04:46Z) - Feature-enhanced Adversarial Semi-supervised Semantic Segmentation
Network for Pulmonary Embolism Annotation [6.142272540492936]
本研究は,肺塞栓病変領域を自動診断する機能強化逆行性半教師付きセマンティックセマンティックセグメンテーションモデルを構築した。
近年のPEAイメージセグメンテーション手法は,教師あり学習によって訓練されている。
本研究では,少量の未ラベル画像を追加することで,異なるデータセットに適用可能なモデルを構築するための半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T04:21:02Z) - Improved Slice-wise Tumour Detection in Brain MRIs by Computing
Dissimilarities between Latent Representations [68.8204255655161]
磁気共鳴画像(MRI)の異常検出は教師なし手法で行うことができる。
本研究では,変分オートエンコーダの潜伏空間における相似関数の計算に基づいて,腫瘍検出のためのスライスワイズ半教師法を提案する。
本研究では,高解像度画像上でのモデルをトレーニングし,再現の質を向上させることにより,異なるベースラインに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-24T14:02:09Z) - Co-Heterogeneous and Adaptive Segmentation from Multi-Source and
Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion
Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。
本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。
CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文 参考訳(メタデータ) (2020-05-27T06:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。