論文の概要: CoDA: Exploring Chain-of-Distribution Attacks and Post-Hoc Token-Space Repair for Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.18545v1
- Date: Thu, 19 Mar 2026 07:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.98994
- Title: CoDA: Exploring Chain-of-Distribution Attacks and Post-Hoc Token-Space Repair for Medical Vision-Language Models
- Title(参考訳): CoDA:医療ビジョン・ランゲージモデルのためのチェーン・オブ・ディストリビューション・アタックとポスト・ホック・トケンスペース修復
- Authors: Xiang Chen, Fangfang Yang, Chunlei Meng, Chengyin Hu, Ang Li, Yiwei Wei, Jiahuan Long, Jiujiang Guo,
- Abstract要約: 本稿では, 買収型シェーディング, 再構築・表示リマッピング, 納品・輸出劣化による臨床応用可能なパイプラインシフトを構築するチェーン・オブ・ディストリビューション・フレームワークを提案する。
脳MRI,胸部X線,腹部CTでは,CLIP型MVLMのゼロショット性能が著しく低下する。
また,マルチモーダルな大規模言語モデル (MLLM) を,画像リアリズムと品質を診断する技術的オーディケータとして評価した。
- 参考スコア(独自算出の注目度): 14.039516906417724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision--language models (MVLMs) are increasingly used as perceptual backbones in radiology pipelines and as the visual front end of multimodal assistants, yet their reliability under real clinical workflows remains underexplored. Prior robustness evaluations often assume clean, curated inputs or study isolated corruptions, overlooking routine acquisition, reconstruction, display, and delivery operations that preserve clinical readability while shifting image statistics. To address this gap, we propose CoDA, a chain-of-distribution framework that constructs clinically plausible pipeline shifts by composing acquisition-like shading, reconstruction and display remapping, and delivery and export degradations. Under masked structural-similarity constraints, CoDA jointly optimizes stage compositions and parameters to induce failures while preserving visual plausibility. Across brain MRI, chest X-ray, and abdominal CT, CoDA substantially degrades the zero-shot performance of CLIP-style MVLMs, with chained compositions consistently more damaging than any single stage. We also evaluate multimodal large language models (MLLMs) as technical-authenticity auditors of imaging realism and quality rather than pathology. Proprietary multimodal models show degraded auditing reliability and persistent high-confidence errors on CoDA-shifted samples, while the medical-specific MLLMs we test exhibit clear deficiencies in medical image quality auditing. Finally, we introduce a post-hoc repair strategy based on teacher-guided token-space adaptation with patch-level alignment, which improves accuracy on archived CoDA outputs. Overall, our findings characterize a clinically grounded threat surface for MVLM deployment and show that lightweight alignment improves robustness in deployment.
- Abstract(参考訳): 医用視覚言語モデル(MVLM)は、放射線治療パイプラインの知覚バックボーンや、マルチモーダルアシスタントの視覚的フロントエンドとしてますます使われているが、実際の臨床ワークフロー下での信頼性はいまだ研究されていない。
以前のロバスト性評価では、画像統計をシフトしながら臨床の可読性を維持するために、クリーンでキュレートされた入力や孤立した汚職を調査し、定期的な取得、再構築、表示、配送業務を見渡すことが多かった。
このギャップに対処するため,我々は,獲得型シェーディング,再構築・表示リマッピング,納品・輸出の劣化を構成することで,臨床的に妥当なパイプラインシフトを構築するための流通チェーンフレームワークであるCoDAを提案する。
マスクされた構造的類似性制約の下で、CoDAは、視覚的可視性を維持しながら障害を誘発するステージ構成とパラメータを共同で最適化する。
脳MRI、胸部X線、腹部CTで、CoDAはCLIP型MVLMのゼロショット性能を著しく低下させ、鎖状組成物はどのどのステージよりも常に損傷を受けやすい。
また,マルチモーダルな大規模言語モデル (MLLM) を,画像リアリズムと品質を診断する技術的オーディケータとして評価した。
予備的マルチモーダルモデルでは,CoDAシフト検体における検査信頼性の低下と持続的高信頼度誤差がみられたが,医用固有のMLLMでは,医用画像品質検査において明らかな欠陥がみられた。
最後に,教師誘導型トークン空間適応とパッチレベルのアライメントに基づくポストホック修復手法を導入し,アーカイブされたCoDA出力の精度を向上させる。
総じて,本研究はMVLMの展開に対して臨床的根拠のある脅威面を特徴付けるとともに,軽量アライメントが展開の堅牢性を向上させることを示す。
関連論文リスト
- Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers [57.54843029965778]
制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
論文 参考訳(メタデータ) (2026-03-11T06:14:11Z) - CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification [18.95392587947337]
医用画像分類はコンピュータ支援診断(CAD)のコアタスクである
眼科領域ではFlurecein fundus angiography (FFA) とIndocyanine green angiography (ICGA) が血行動態および病変・構造情報を提供する。
我々は,MedMamba上に構築された拡張フレームワークであるCLEAR-Mambaを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:40:10Z) - Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging [55.62977326180104]
前立腺癌病変の分節化に対する近年の深層学習アプローチは,限られた性能を達成している。
本稿では,標準拡散型プロトコルの拡張として,合成相関拡散イメージング(CDI$s$)について検討する。
以上の結果から,PCa病変セグメント化タスクの実践的ドロップイン強化として,CDI$s$に対する検証済み統合経路が確立された。
論文 参考訳(メタデータ) (2025-11-11T04:16:12Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Prompt-Guided Patch UNet-VAE with Adversarial Supervision for Adrenal Gland Segmentation in Computed Tomography Medical Images [0.3437656066916039]
CT画像における副腎などの小さな腹部臓器は、厳密な階級不均衡、空間的状況の悪化、限られた注釈付きデータによる永続的な課題である。
本稿では,これらの制約を原則的かつスケーラブルに対処するために,変分再構成,教師付きセグメンテーション,および逆パッチベースのフィードバックを組み合わせた統合フレームワークを提案する。
本研究は,小組織セグメンテーションにおけるハイブリッド世代別訓練体制の有効性を明らかにするとともに,データ共有シナリオにおける現実性,多様性,解剖学的整合性のバランスに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-09-03T10:18:06Z) - On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable? [0.9626666671366837]
我々は、複数の医療画像データセットに複数の摂動を適用した汚職ベンチマークであるMediMeta-Cを紹介する。
本稿では,事前訓練されたMVLMの視覚的エンコーダ適応であるRobustMedCLIPを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:08:31Z) - InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration [106.70903819362402]
拡散前駆体は、低画質画像の復元のために、復元データセットの微細調整拡散モデル(DM)によってブラインドフェイス復元(BFR)に使用されている。
我々は,その優れたセマンティック一貫性と効率のために潜在一貫性モデル(LCM)を活用するために,InterLCMを提案する。
InterLCMは、合成データセットと実世界のデータセットの両方において既存のアプローチより優れており、推論速度も高速である。
論文 参考訳(メタデータ) (2025-02-04T10:51:20Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。