論文の概要: Toward Robust Medical Fairness: Debiased Dual-Modal Alignment via Text-Guided Attribute-Disentangled Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.18886v1
- Date: Tue, 26 Aug 2025 10:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.793218
- Title: Toward Robust Medical Fairness: Debiased Dual-Modal Alignment via Text-Guided Attribute-Disentangled Prompt Learning for Vision-Language Models
- Title(参考訳): ロバスト医療フェアネスに向けて:視覚言語モデルのためのテキストガイド型属性分散型プロンプト学習によるデバイアスドデュアルモーダルアライメント
- Authors: Yuexuan Xia, Benteng Ma, Jiang He, Zhiyong Wang, Qi Dou, Yong Xia,
- Abstract要約: 視覚言語モデル(VLM)は強力な一般化を示し、テキストはアイデンティティ属性をエンコードする。
本稿では,マルチモーダルなプロンプト学習フレームワークであるDualFairVLを提案する。
実験により、DualFairVLは、イン・オブ・オブ・ディストリビューション設定とアウト・オブ・ディストリビューション設定の両方で、最先端の公正性と正確性を達成することが示された。
- 参考スコア(独自算出の注目度): 34.42749153279352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring fairness across demographic groups in medical diagnosis is essential for equitable healthcare, particularly under distribution shifts caused by variations in imaging equipment and clinical practice. Vision-language models (VLMs) exhibit strong generalization, and text prompts encode identity attributes, enabling explicit identification and removal of sensitive directions. However, existing debiasing approaches typically address vision and text modalities independently, leaving residual cross-modal misalignment and fairness gaps. To address this challenge, we propose DualFairVL, a multimodal prompt-learning framework that jointly debiases and aligns cross-modal representations. DualFairVL employs a parallel dual-branch architecture that separates sensitive and target attributes, enabling disentangled yet aligned representations across modalities. Approximately orthogonal text anchors are constructed via linear projections, guiding cross-attention mechanisms to produce fused features. A hypernetwork further disentangles attribute-related information and generates instance-aware visual prompts, which encode dual-modal cues for fairness and robustness. Prototype-based regularization is applied in the visual branch to enforce separation of sensitive features and strengthen alignment with textual anchors. Extensive experiments on eight medical imaging datasets across four modalities show that DualFairVL achieves state-of-the-art fairness and accuracy under both in- and out-of-distribution settings, outperforming full fine-tuning and parameter-efficient baselines with only 3.6M trainable parameters. Code will be released upon publication.
- Abstract(参考訳): 医療診断における人口集団間の公平性の確保は、医療、特に画像機器のばらつきや臨床実践による分布変化の下では不可欠である。
視覚言語モデル(VLM)は強力な一般化を示し、テキストはアイデンティティ属性をエンコードし、明示的な識別と機密方向の除去を可能にする。
しかし、既存の偏見的アプローチは、視覚とテキストのモダリティを独立に扱うのが一般的である。
この課題に対処するために,複数モーダルなプロンプト学習フレームワークであるDualFairVLを提案する。
DualFairVLでは、センシティブな属性とターゲットの属性を分離する並列デュアルブランチアーキテクチャを採用している。
ほぼ直交するテキストアンカーは、線形射影によって構築され、融合した特徴を生み出すための相互注意機構を導く。
ハイパーネットワークは属性関連情報をさらに切り離し、インスタンス対応の視覚的プロンプトを生成し、公正さとロバストさのためにデュアルモーダルキューを符号化する。
プロトタイプベースの正規化は視覚枝に応用され、繊細な特徴の分離を強制し、テキストアンカーとのアライメントを強化する。
4つのモードにわたる8つの医用画像データセットの大規模な実験により、DualFairVLは3.6Mのトレーニング可能なパラメータで完全な微調整とパラメータ効率のベースラインを達成し、内部および外部の両方で最先端の公正性と正確性を達成することが示されている。
コードは出版時に公開される。
関連論文リスト
- On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。
画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文 参考訳(メタデータ) (2025-07-31T21:35:52Z) - Dual-branch Prompting for Multimodal Machine Translation [9.903997553625253]
本稿では,D2P-MMTを提案する。D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT,D2P-MMT)。
D2P-MMTは、事前学習した拡散モデルによって生成されたソーステキストと再構成画像のみを必要とする。
Multi30Kデータセットの実験により、D2P-MMTは既存の最先端手法よりも優れた翻訳性能が得られることが示された。
論文 参考訳(メタデータ) (2025-07-23T15:22:51Z) - BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation [9.262045402495225]
BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。
BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。
これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
論文 参考訳(メタデータ) (2025-03-30T17:34:39Z) - CM-Diff: A Single Generative Network for Bidirectional Cross-Modality Translation Diffusion Model Between Infrared and Visible Images [48.57429642590462]
本稿では、赤外モードと可視モードの両方でデータ分布を同時にモデル化するための双方向相互モーダル変換拡散モデル(CM-Diff)を提案する。
CM-Diffが最先端手法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-03-12T16:25:18Z) - Bridged Semantic Alignment for Zero-shot 3D Medical Image Diagnosis [23.56751925900571]
CT(Computed Tomography)などの3次元医用画像は臨床で広く用いられており,自動診断の可能性が強い。
教師付き学習ベースのアプローチは大きな進歩を遂げているが、広範囲のマニュアルアノテーションに大きく依存している。
視覚言語アライメント(VLA)は、追加アノテーションなしでゼロショット学習を可能にすることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-01-07T06:30:52Z) - DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation [4.523111195300109]
半教師付き医療画像セグメンテーション(SSMIS)は、整合性学習を用いてモデルのトレーニングを規則化する。
SSMISは、しばしば低品質の擬似ラベルのエラー管理に悩まされる。
SSMISのためのDuSSS(Dual Semantic similarity-Supervised VLM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T02:47:00Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。