論文の概要: Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis
- arxiv url: http://arxiv.org/abs/2406.15050v1
- Date: Fri, 21 Jun 2024 10:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:53:51.427154
- Title: Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis
- Title(参考訳): Tri-VQA:多属性分析のための医用視覚質問応答の三角形推論
- Authors: Lin Fan, Xun Gong, Cenyang Zheng, Yafei Ou,
- Abstract要約: より凝集性で安定なメド-VQA構造の構築について検討する。
因果効果によって動機付けられた新しい三角形推論VQAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.964280449393689
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The intersection of medical Visual Question Answering (Med-VQA) is a challenging research topic with advantages including patient engagement and clinical expert involvement for second opinions. However, existing Med-VQA methods based on joint embedding fail to explain whether their provided results are based on correct reasoning or coincidental answers, which undermines the credibility of VQA answers. In this paper, we investigate the construction of a more cohesive and stable Med-VQA structure. Motivated by causal effect, we propose a novel Triangular Reasoning VQA (Tri-VQA) framework, which constructs reverse causal questions from the perspective of "Why this answer?" to elucidate the source of the answer and stimulate more reasonable forward reasoning processes. We evaluate our method on the Endoscopic Ultrasound (EUS) multi-attribute annotated dataset from five centers, and test it on medical VQA datasets. Experimental results demonstrate the superiority of our approach over existing methods. Our codes and pre-trained models are available at https://anonymous.4open.science/r/Tri_VQA.
- Abstract(参考訳): 医学的視覚質問応答(Med-VQA)の交わりは、患者関与や臨床専門家による二次的意見の関与を含む、困難な研究課題である。
しかし, 既存のMed-VQA法では, VQAの解答の信頼性を損なうような, 正しい解法と偶然解法に基づいて得られる結果が説明できない。
本稿では,より密着性が高く安定なMed-VQA構造の構築について検討する。
因果効果によって動機付けられた新しい三角形推論VQA(Tri-VQA)フレームワークを提案する。
本手法は,5施設から得られたEUSマルチ属性アノテートデータセットについて評価し,医療用VQAデータセットで検証した。
実験の結果,既存手法よりも提案手法の方が優れていることが示された。
私たちのコードと事前訓練済みモデルはhttps://anonymous.4open.science/r/Tri_VQA.comで利用可能です。
関連論文リスト
- Generating Explanations in Medical Question-Answering by Expectation
Maximization Inference over Evidence [33.018873142559286]
本稿では,医療用QAシステムによって予測される回答に対して,自然言語による説明を生成するための新しい手法を提案する。
本システムは,説明生成過程における説明の質を高めるために,医学教科書から知識を抽出する。
論文 参考訳(メタデータ) (2023-10-02T16:00:37Z) - Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Consistency-preserving Visual Question Answering in Medical Imaging [2.005299372367689]
VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。
本稿では,課題間の関係を学習プロセスに含める新しい損失関数とそれに対応する訓練手順を提案する。
実験の結果,本手法は最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-27T13:38:50Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Hierarchical Deep Multi-modal Network for Medical Visual Question
Answering [25.633660028022195]
本稿では,エンドユーザの質問/問い合わせを分析し,分類する階層的なディープマルチモーダルネットワークを提案する。
我々は、QSモデルを階層的な深層多モードニューラルネットワークに統合し、医用画像に関するクエリに対する適切な回答を生成する。
論文 参考訳(メタデータ) (2020-09-27T07:24:41Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。