論文の概要: Uncertainty-Aware Vision-Language Segmentation for Medical Imaging
- arxiv url: http://arxiv.org/abs/2602.14498v1
- Date: Mon, 16 Feb 2026 06:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.228875
- Title: Uncertainty-Aware Vision-Language Segmentation for Medical Imaging
- Title(参考訳): 医用画像における不確かさを意識した視線領域分割
- Authors: Aryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma,
- Abstract要約: 医療診断のための新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。
本稿では,高効率なクロスモーダル融合を実現するために,軽量なステートスペースミキサ(SSMix)を備えたModality Decoding Attention Block (MoDAB)を提案する。
本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
- 参考スコア(独自算出の注目度): 12.545486211087791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS
- Abstract(参考訳): 本稿では,放射線画像と関連する臨床テキストを併用して正確な診断を行う,新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。
本稿では,モダリティ・デコード・アテンション・ブロック (MoDAB) と軽量なステート・スペース・ミキサ (SSMix) を提案する。
本研究では,空間的重複,スペクトルの整合性,予測の不確かさを統一された目的において共同で捉えたスペクトル-エントロピー不確実性(SEU)損失を提案する。
画像品質の悪い複雑な臨床状況において、この定式化はモデルの信頼性を向上させる。
QATA-COVID19, MosMed++, Kvasir-SEG などの医療データセットに対する大規模な実験により,本手法は既存の State-of-the-Art (SoTA) アプローチよりも計算効率が高く, セグメンテーション性能が優れていることを示した。
本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
コード:https://github.com/arya- domain/UA-VLS
関連論文リスト
- Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文 参考訳(メタデータ) (2025-11-08T11:08:27Z) - Med-K2N: Flexible K-to-N Modality Translation for Medical Image Synthesis [13.589690091116802]
クロスモーダルな医用画像合成研究は、臨床診断を支援するために利用可能な画像から欠落した画像のモダリティを再構築することに焦点を当てている。
様々な目的タスクに対する異なるモダリティの不均一な寄与をモデル化するにはどうすればよいか?
マルチアウトプット生成におけるモーダリティアイデンティティの整合性を維持するには?
論文 参考訳(メタデータ) (2025-10-03T08:47:17Z) - Robust Incomplete-Modality Alignment for Ophthalmic Disease Grading and Diagnosis via Labeled Optimal Transport [28.96009174108652]
眼底画像と光コヒーレンス断層撮影(OCT)を併用したマルチモーダル眼底画像診断を行った。
既存の一般的なパイプライン、例えばモダリティ計算や蒸留法は、顕著な制限に直面している。
本稿では,眼科診断の課題において欠落したモダリティを頑健に扱える新しい多モードアライメントと融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T13:36:39Z) - HepatoGEN: Generating Hepatobiliary Phase MRI with Perceptual and Adversarial Models [33.7054351451505]
肝胆道相(HBP)画像の初期コントラスト位相からの深層学習に基づく合成手法を提案する。
pGANの定量的評価は, 視力評価とブラインドドラジオロジカル・レビューの併用により, pGANが最高の定量的性能を示した。
対照的に、U-Netは、より少ないアーティファクトで一貫した肝拡張を発生させ、DDPMは、微細構造の詳細の保存が限られているため、性能が低下した。
論文 参考訳(メタデータ) (2025-04-25T15:01:09Z) - KAN-Mamba FusionNet: Redefining Medical Image Segmentation with Non-Linear Modeling [3.2971993272923443]
医用画像のセグメンテーション精度を向上させるために,新しいアーキテクチャであるkan-Mamba FusionNetを提案する。
IoUとF1スコアの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-18T09:19:16Z) - ETSCL: An Evidence Theory-Based Supervised Contrastive Learning Framework for Multi-modal Glaucoma Grading [7.188153974946432]
緑内障は視覚障害の主要な原因の1つである。
医用画像の類似度が高いことと、不均衡なマルチモーダルデータ分布のため、信頼性の高い特徴を抽出することは依然として困難である。
コントラストのある特徴抽出段階と決定レベルの融合段階からなる新しいフレームワークであるETSCLを提案する。
論文 参考訳(メタデータ) (2024-07-19T11:57:56Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。