論文の概要: Hierarchical Deep Multi-modal Network for Medical Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2009.12770v1
- Date: Sun, 27 Sep 2020 07:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:10:03.893553
- Title: Hierarchical Deep Multi-modal Network for Medical Visual Question
Answering
- Title(参考訳): 医用ビジュアル質問応答のための階層型ディープマルチモーダルネットワーク
- Authors: Deepak Gupta, Swati Suman, Asif Ekbal
- Abstract要約: 本稿では,エンドユーザの質問/問い合わせを分析し,分類する階層的なディープマルチモーダルネットワークを提案する。
我々は、QSモデルを階層的な深層多モードニューラルネットワークに統合し、医用画像に関するクエリに対する適切な回答を生成する。
- 参考スコア(独自算出の注目度): 25.633660028022195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Question Answering in Medical domain (VQA-Med) plays an important role
in providing medical assistance to the end-users. These users are expected to
raise either a straightforward question with a Yes/No answer or a challenging
question that requires a detailed and descriptive answer. The existing
techniques in VQA-Med fail to distinguish between the different question types
sometimes complicates the simpler problems, or over-simplifies the complicated
ones. It is certainly true that for different question types, several distinct
systems can lead to confusion and discomfort for the end-users. To address this
issue, we propose a hierarchical deep multi-modal network that analyzes and
classifies end-user questions/queries and then incorporates a query-specific
approach for answer prediction. We refer our proposed approach as Hierarchical
Question Segregation based Visual Question Answering, in short HQS-VQA. Our
contributions are three-fold, viz. firstly, we propose a question segregation
(QS) technique for VQAMed; secondly, we integrate the QS model to the
hierarchical deep multi-modal neural network to generate proper answers to the
queries related to medical images; and thirdly, we study the impact of QS in
Medical-VQA by comparing the performance of the proposed model with QS and a
model without QS. We evaluate the performance of our proposed model on two
benchmark datasets, viz. RAD and CLEF18. Experimental results show that our
proposed HQS-VQA technique outperforms the baseline models with significant
margins. We also conduct a detailed quantitative and qualitative analysis of
the obtained results and discover potential causes of errors and their
solutions.
- Abstract(参考訳): 医療領域における視覚的質問応答(VQA-Med)は,エンドユーザに医療支援を提供する上で重要な役割を担っている。
これらのユーザは、イエス/ノーの直接的な質問か、詳細かつ説明的な回答を必要とする挑戦的な質問のいずれかを提起することが期待される。
vqa-medの既存のテクニックは、異なる質問タイプを区別できないため、単純な問題を複雑にしたり、複雑な問題を過度に単純化したりすることがある。
異なる質問タイプに対して、複数の異なるシステムがエンドユーザに混乱と不快をもたらすことは確かである。
この問題に対処するために,エンドユーザーの質問やクエリを分析し,分類する階層型深層マルチモーダルネットワークを提案する。
提案手法は,階層的質問分離に基づく視覚的質問応答,略してhqs-vqaと呼ぶ。
まず、VQAMedのQS(Qs)手法を提案し、第2に、QSモデルを階層的な深層マルチモーダルニューラルネットワークに統合し、医用画像に関するクエリに対する適切な回答を生成するとともに、第3に、提案モデルとQSのないモデルとを比較して、医療用VQAにおけるQSの影響について検討する。
提案したモデルの性能を2つのベンチマークデータセットであるvizで評価した。
RADとCLEF18。
実験の結果,提案手法がベースラインモデルよりも高いマージンを示した。
また,得られた結果の定量的,定性的な分析を行い,誤差とその解の潜在的な原因を発見する。
関連論文リスト
- RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions [3.182594503527438]
本稿では,人間とLLMが生み出す現実的な臨床質問のデータセットであるRealMedQAを紹介する。
LLMは「理想的な」QAペアを生成するのに、よりコスト効率が高いことを示す。
論文 参考訳(メタデータ) (2024-08-16T09:32:43Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Q2ATransformer: Improving Medical VQA via an Answer Querying Decoder [39.06513668037645]
医療用VQA(Q2A Transformer)のためのトランスフォーマーベースの新しいフレームワークを提案する。
与えられた画像検索ペアに対して,各回答クラスの存在を問うために,学習可能な解答の組を付加したTransformerデコーダを導入する。
本手法は,2つの医用VQAベンチマークにおいて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-04T08:06:40Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文 参考訳(メタデータ) (2022-04-02T15:09:16Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z) - Multiple interaction learning with question-type prior knowledge for
constraining answer search space in visual question answering [24.395733613284534]
質問型事前情報を利用してVQAを改善する新しいVQAモデルを提案する。
VQA 2.0とTDIUCという2つのベンチマークデータセットの固体実験は、提案手法が最も競争力のあるアプローチで最高の性能を得ることを示している。
論文 参考訳(メタデータ) (2020-09-23T12:54:34Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z) - CQ-VQA: Visual Question Answering on Categorized Questions [3.0013352260516744]
本稿では,視覚的質問応答(VQA)の課題を解決するために,新しい2階層型・エンドツーエンドモデルであるCQ-VQAを提案する。
質問分類器(QC)と呼ばれる第1レベルのCQ-VQAは、潜在的な回答検索スペースを減らすために質問を分類する。
第2のレベルは、回答予測器(AP)と呼ばれ、各質問カテゴリに対応する一組の別個の分類器から構成される。
論文 参考訳(メタデータ) (2020-02-17T06:45:29Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。