論文の概要: DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities
- arxiv url: http://arxiv.org/abs/2511.05968v1
- Date: Sat, 08 Nov 2025 11:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.686258
- Title: DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities
- Title(参考訳): DiA-gnostic VLVAE: Unentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities
- Authors: Nagur Shareef Shaik, Teja Krishna Cherukuri, Adnan Masood, Dong Hye Ye,
- Abstract要約: 本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
- 参考スコア(独自算出の注目度): 3.5045368873011924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of medical images with clinical context is essential for generating accurate and clinically interpretable radiology reports. However, current automated methods often rely on resource-heavy Large Language Models (LLMs) or static knowledge graphs and struggle with two fundamental challenges in real-world clinical data: (1) missing modalities, such as incomplete clinical context , and (2) feature entanglement, where mixed modality-specific and shared information leads to suboptimal fusion and clinically unfaithful hallucinated findings. To address these challenges, we propose the DiA-gnostic VLVAE, which achieves robust radiology reporting through Disentangled Alignment. Our framework is designed to be resilient to missing modalities by disentangling shared and modality-specific features using a Mixture-of-Experts (MoE) based Vision-Language Variational Autoencoder (VLVAE). A constrained optimization objective enforces orthogonality and alignment between these latent representations to prevent suboptimal fusion. A compact LLaMA-X decoder then uses these disentangled representations to generate reports efficiently. On the IU X-Ray and MIMIC-CXR datasets, DiA has achieved competetive BLEU@4 scores of 0.266 and 0.134, respectively. Experimental results show that the proposed method significantly outperforms state-of-the-art models.
- Abstract(参考訳): 医療画像と臨床コンテキストの融合は, 正確な, 臨床的に解釈可能な放射線診断レポートの作成に不可欠である。
しかしながら、現在の自動化手法は、しばしばリソース重大言語モデル(LLM)や静的知識グラフに頼り、実世界の臨床データにおける2つの基本的な課題に苦慮している:(1)不完全な臨床状況のようなモダリティの欠如、(2)特徴の絡み合い。
これらの課題に対処するため,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、Mixture-of-Experts (MoE) ベースのVision-Language Variational Autoencoder (VLVAE) を用いて、共有機能とモダリティ特化機能を切り離すことにより、モダリティの欠如に耐性を持つように設計されている。
制約付き最適化の目的は、これらの潜在表現間の直交と整合を強制し、準最適融合を防ぐことである。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
IU X-Ray と MIMIC-CXR のデータセットでは、それぞれ 0.266 と 0.134 の BLEU@4 スコアを達成している。
実験結果から,提案手法は最先端モデルよりも有意に優れていた。
関連論文リスト
- OCSVM-Guided Representation Learning for Unsupervised Anomaly Detection [1.0190194769786831]
Unsupervised Anomaly Detection (UAD) は、ラベル付きデータなしで異常を検出することを目的としている。
解析的に解ける一級SVMを用いて表現学習を緊密に結合する新しい手法を提案する。
このモデルは、MNIST-Cに基づく新しいベンチマークと、挑戦的な脳MRI微妙な病変検出タスクの2つのタスクで評価されている。
論文 参考訳(メタデータ) (2025-07-25T13:00:40Z) - GANet-Seg: Adversarial Learning for Brain Tumor Segmentation with Hybrid Generative Models [1.0456203870202954]
この研究は、事前訓練されたGANとUnetアーキテクチャを利用した脳腫瘍セグメンテーションのための新しいフレームワークを導入する。
グローバルな異常検出モジュールと改良されたマスク生成ネットワークを組み合わせることで,腫瘍感受性領域を正確に同定する。
マルチモーダルMRIデータと合成画像拡張を用いて、ロバスト性を改善し、限られたアノテートデータセットの課題に対処する。
論文 参考訳(メタデータ) (2025-06-26T13:28:09Z) - VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - Guided Neural Schrödinger bridge for Brain MR image synthesis with Limited Data [3.150689113642665]
マルチモーダル脳MRIは臨床診断に不可欠な補完情報を提供する。
これを解決するために、利用可能なモダリティから欠落するモダリティを生成する様々な方法が提案されている。
本稿では,これらの制限を克服するための新しいフレームワークであるFully Guided Schr"odinger Bridge (FGSB)を提案する。
論文 参考訳(メタデータ) (2025-01-24T01:40:16Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - DrFuse: Learning Disentangled Representation for Clinical Multi-Modal
Fusion with Missing Modality and Modal Inconsistency [18.291267748113142]
そこで本研究では,DrFuseを効果的に多モード核融合を実現するために提案する。
モダリティに共通する特徴と各モダリティに特有の特徴を分離することで、モダリティの欠如に対処する。
実世界の大規模データセットMIMIC-IVとMIMIC-CXRを用いて提案手法を検証する。
論文 参考訳(メタデータ) (2024-03-10T12:41:34Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。