論文の概要: Consistency-preserving Visual Question Answering in Medical Imaging
- arxiv url: http://arxiv.org/abs/2206.13296v1
- Date: Mon, 27 Jun 2022 13:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 14:00:24.265307
- Title: Consistency-preserving Visual Question Answering in Medical Imaging
- Title(参考訳): 医用画像における一貫性保存型視覚質問応答
- Authors: Sergio Tascon-Morales, Pablo M\'arquez-Neila, Raphael Sznitman
- Abstract要約: VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。
本稿では,課題間の関係を学習プロセスに含める新しい損失関数とそれに対応する訓練手順を提案する。
実験の結果,本手法は最先端のベースラインよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 2.005299372367689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) models take an image and a natural-language
question as input and infer the answer to the question. Recently, VQA systems
in medical imaging have gained popularity thanks to potential advantages such
as patient engagement and second opinions for clinicians. While most research
efforts have been focused on improving architectures and overcoming
data-related limitations, answer consistency has been overlooked even though it
plays a critical role in establishing trustworthy models. In this work, we
propose a novel loss function and corresponding training procedure that allows
the inclusion of relations between questions into the training process.
Specifically, we consider the case where implications between perception and
reasoning questions are known a-priori. To show the benefits of our approach,
we evaluate it on the clinically relevant task of Diabetic Macular Edema (DME)
staging from fundus imaging. Our experiments show that our method outperforms
state-of-the-art baselines, not only by improving model consistency, but also
in terms of overall model accuracy. Our code and data are available at
https://github.com/sergiotasconmorales/consistency_vqa.
- Abstract(参考訳): VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。
近年,患者のエンゲージメントや臨床医に対する第2の意見などにより,医用画像のVQAシステムが普及している。
ほとんどの研究は、アーキテクチャの改善とデータ関連の制限を克服することに重点を置いているが、信頼できるモデルを確立する上で重要な役割を果たすにもかかわらず、回答の一貫性は見過ごされている。
本研究では,課題間の関係を学習プロセスに組み込むための,新しい損失関数と対応する訓練手順を提案する。
具体的には、知覚と推論の問題の間に意味がある場合を考える。
本手法の利点を示すため, 基礎画像からの糖尿病性黄斑浮腫(DME)の経過について臨床的に検討した。
実験の結果,本手法はモデル整合性の向上だけでなく,モデル全体の精度も向上することがわかった。
私たちのコードとデータはhttps://github.com/sergiotasconmorales/consistency_vqaで入手できます。
関連論文リスト
- Which Client is Reliable?: A Reliable and Personalized Prompt-based Federated Learning for Medical Image Question Answering [51.26412822853409]
本稿では,医学的視覚的質問応答(VQA)モデルのための,パーソナライズド・フェデレーションド・ラーニング(pFL)手法を提案する。
提案手法では,学習可能なプロンプトをTransformerアーキテクチャに導入し,膨大な計算コストを伴わずに,多様な医療データセット上で効率的にトレーニングする。
論文 参考訳(メタデータ) (2024-10-23T00:31:17Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - A reinforcement learning approach for VQA validation: an application to
diabetic macular edema grading [2.368995563245609]
非常に強力なVisual Question Answering (VQA)アルゴリズムに対して、よりリッチでより適切な検証アプローチを提供することに注力する。
本稿では,VQAアルゴリズムの推論動作を明らかにすることを目的とした自動適応質問手法を提案する。
実験により、そのようなエージェントは臨床医と同じような振る舞いを示し、主要な臨床概念に関連する質問を行う。
論文 参考訳(メタデータ) (2023-07-19T10:31:35Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Localized Questions in Medical Visual Question Answering [2.005299372367689]
VQA(Visual Question Answering)モデルは、与えられた画像に関する自然言語の質問に答えることを目的としている。
既存の医療用VQAモデルは、画像全体を参照する質問に答えることに重点を置いている。
本稿では、画像領域に関する疑問に答えられるモデルを開発することにより、この限界に対処する医療用VQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:47:18Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - A Question-Centric Model for Visual Question Answering in Medical
Imaging [3.619444603816032]
そこで本稿では,画像の問合せを質問文で行う視覚質問解答手法を提案する。
種々の医用・自然画像データセットを用いた実験により, 提案手法は, 画像特徴と疑問特徴を新しい方法で融合させることで, 従来の手法と同等あるいは高い精度を達成できることが示されている。
論文 参考訳(メタデータ) (2020-03-02T10:16:16Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。