論文の概要: A Causal Approach to Mitigate Modality Preference Bias in Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2505.16209v1
- Date: Thu, 22 May 2025 04:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.03242
- Title: A Causal Approach to Mitigate Modality Preference Bias in Medical Visual Question Answering
- Title(参考訳): 医用視覚質問応答におけるモダリティ選好バイアスの緩和のための因果的アプローチ
- Authors: Shuchang Ye, Usman Naseem, Mingyuan Meng, Dagan Feng, Jinman Kim,
- Abstract要約: 既存のMedVQAモデルはモダリティ優先バイアスに悩まされ、予測は一方のモダリティに大きく支配され、他方を見下ろしている。
本稿では, 因果グラフを応用し, 推論時のモダリティ優先バイアスを除去する医療対実VQA(MedCFVQA)モデルを提案する。
我々は,MedCFVQAがSLAKE,RadVQA,SLAKE-CP,RadVQA-CPの両データセットにおいて,非因果関係を著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 13.506155313741493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (MedVQA) is crucial for enhancing the efficiency of clinical diagnosis by providing accurate and timely responses to clinicians' inquiries regarding medical images. Existing MedVQA models suffered from modality preference bias, where predictions are heavily dominated by one modality while overlooking the other (in MedVQA, usually questions dominate the answer but images are overlooked), thereby failing to learn multimodal knowledge. To overcome the modality preference bias, we proposed a Medical CounterFactual VQA (MedCFVQA) model, which trains with bias and leverages causal graphs to eliminate the modality preference bias during inference. Existing MedVQA datasets exhibit substantial prior dependencies between questions and answers, which results in acceptable performance even if the model significantly suffers from the modality preference bias. To address this issue, we reconstructed new datasets by leveraging existing MedVQA datasets and Changed their P3rior dependencies (CP) between questions and their answers in the training and test set. Extensive experiments demonstrate that MedCFVQA significantly outperforms its non-causal counterpart on both SLAKE, RadVQA and SLAKE-CP, RadVQA-CP datasets.
- Abstract(参考訳): 医用視力検査 (MedVQA) は, 医用画像に関する臨床医の問い合わせに対して, 正確かつタイムリーな回答を提供することにより, 臨床診断の効率化に不可欠である。
既存のMedVQAモデルはモダリティ優先バイアスに悩まされ、予測は一方のモダリティに大きく支配され、他方を見渡す(MedVQAでは、質問は解答を独占するが、画像は見落としている)ため、マルチモーダル知識の習得に失敗する。
偏見の偏見を克服するために,偏見を訓練し,因果グラフを利用して推論時の偏見偏見を除去するメディカルカウンタファクチュアルVQA(MedCFVQA)モデルを提案した。
既存のMedVQAデータセットは、質問と回答の間にかなりの事前依存関係を示しており、モデルがモダリティ優先バイアスに著しく悩まされている場合でも、許容できる性能をもたらす。
この問題に対処するため、既存のMedVQAデータセットを活用して新しいデータセットを再構築し、トレーニングとテストセットにおける質問と回答の間のP3rior依存性を変更しました。
大規模な実験により、MedCFVQAはSLAKE、RadVQA、SLAKE-CP、RadVQA-CPのデータセットにおいて、その非因果関係を著しく上回っていることが示された。
関連論文リスト
- Structure Causal Models and LLMs Integration in Medical Visual Question Answering [42.54219413108453]
MedVQAタスクのための因果推論フレームワークを提案する。
視覚的要素とテキスト的要素の相互作用を表す新しい因果グラフ構造を最初に導入する。
本手法は複雑な医療データに面した真の因果相関を実現する。
論文 参考訳(メタデータ) (2025-05-05T14:57:02Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Consistency-preserving Visual Question Answering in Medical Imaging [2.005299372367689]
VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。
本稿では,課題間の関係を学習プロセスに含める新しい損失関数とそれに対応する訓練手順を提案する。
実験の結果,本手法は最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-27T13:38:50Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Towards Causality-Aware Inferring: A Sequential Discriminative Approach
for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。
この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。
本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文 参考訳(メタデータ) (2020-03-14T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。