論文の概要: Q2ATransformer: Improving Medical VQA via an Answer Querying Decoder
- arxiv url: http://arxiv.org/abs/2304.01611v2
- Date: Mon, 5 Jun 2023 05:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 02:08:24.183138
- Title: Q2ATransformer: Improving Medical VQA via an Answer Querying Decoder
- Title(参考訳): q2atransformer: answer querying decoderによる医療vqaの改善
- Authors: Yunyi Liu, Zhanyu Wang, Dong Xu, and Luping Zhou
- Abstract要約: 医療用VQA(Q2A Transformer)のためのトランスフォーマーベースの新しいフレームワークを提案する。
与えられた画像検索ペアに対して,各回答クラスの存在を問うために,学習可能な解答の組を付加したTransformerデコーダを導入する。
本手法は,2つの医用VQAベンチマークにおいて,新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 39.06513668037645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (VQA) systems play a supporting role to
understand clinic-relevant information carried by medical images. The questions
to a medical image include two categories: close-end (such as Yes/No question)
and open-end. To obtain answers, the majority of the existing medical VQA
methods relies on classification approaches, while a few works attempt to use
generation approaches or a mixture of the two. The classification approaches
are relatively simple but perform poorly on long open-end questions. To bridge
this gap, in this paper, we propose a new Transformer based framework for
medical VQA (named as Q2ATransformer), which integrates the advantages of both
the classification and the generation approaches and provides a unified
treatment for the close-end and open-end questions. Specifically, we introduce
an additional Transformer decoder with a set of learnable candidate answer
embeddings to query the existence of each answer class to a given
image-question pair. Through the Transformer attention, the candidate answer
embeddings interact with the fused features of the image-question pair to make
the decision. In this way, despite being a classification-based approach, our
method provides a mechanism to interact with the answer information for
prediction like the generation-based approaches. On the other hand, by
classification, we mitigate the task difficulty by reducing the search space of
answers. Our method achieves new state-of-the-art performance on two medical
VQA benchmarks. Especially, for the open-end questions, we achieve 79.19% on
VQA-RAD and 54.85% on PathVQA, with 16.09% and 41.45% absolute improvements,
respectively.
- Abstract(参考訳): 医用視覚質問応答システム(VQA)は,医用画像による診療関連情報の理解を支援する役割を担っている。
医療画像に対する質問には、クローズドエンド(Yes/No questionなど)とオープンエンドの2つのカテゴリが含まれる。
回答を得るためには、既存の医療用VQA法の大部分は分類手法に依存しており、いくつかの研究は世代アプローチや両者の混合を試みている。
分類アプローチは比較的単純だが、長いオープンエンドの質問ではうまく機能しない。
このギャップを埋めるために,本論文では,医療用VQA(Q2A Transformer)のためのトランスフォーマーベースのフレームワークを提案する。
具体的には,各応答クラスの存在を与えられた画像問合せペアに問合せするために,学習可能な解組の組を持つ追加のトランスフォーマデコーダを導入する。
Transformerの注意を通じて、候補回答の埋め込みは、画像検索ペアの融合した特徴と相互作用して決定を行う。
このように、分類に基づくアプローチであるにもかかわらず、本手法は、生成に基づくアプローチのような予測のための回答情報と対話するメカニズムを提供する。
一方,分類により,回答の探索空間を小さくすることで課題の難易度を軽減できる。
本手法は,2つの医用VQAベンチマークにおいて,新しい最先端性能を実現する。
特に、オープンエンドの質問では、VQA-RADが79.19%、PathVQAが54.85%、それぞれ16.09%、絶対的な改善が41.45%である。
関連論文リスト
- PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery [16.341966752582096]
本稿では, 内鼻下垂体手術における視覚質問応答(VQA)のためのデータセットであるPitVQAと, 手術用VQAのための新しい画像基底テキスト埋め込みによるGPT2の適応であるPitVQA-Netを紹介する。
PitVQAは25のプロシージャビデオと、フェーズとステップ認識、コンテキスト理解、ツール検出とローカライゼーション、ツールとタスクの相互作用といった重要な外科的側面にまたがる質問対の豊富なコレクションで構成されている。
PitVQA-Netは、画像とテキストの特徴を共有埋め込み空間とGPT2に投影する新しい画像基底テキスト埋め込みで構成されている。
論文 参考訳(メタデータ) (2024-05-22T19:30:24Z) - XAIQA: Explainer-Based Data Augmentation for Extractive Question
Answering [1.1867812760085572]
我々は,電子カルテで自然に利用可能なデータから,合成QAペアを大規模に生成するための新しいアプローチであるXAIQAを紹介する。
本手法は、分類モデル説明器の考え方を用いて、医療規範に対応する医療概念に関する質問や回答を生成する。
論文 参考訳(メタデータ) (2023-12-06T15:59:06Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Will this Question be Answered? Question Filtering via Answer Model
Distillation for Efficient Question Answering [99.66470885217623]
本稿では,質問回答システム(QA)の効率向上に向けた新しいアプローチを提案する。
最新のQAシステムの回答信頼性スコアは、入力された質問テキストのみを使用してモデルによってうまく近似することができる。
論文 参考訳(メタデータ) (2021-09-14T23:07:49Z) - Hierarchical Deep Multi-modal Network for Medical Visual Question
Answering [25.633660028022195]
本稿では,エンドユーザの質問/問い合わせを分析し,分類する階層的なディープマルチモーダルネットワークを提案する。
我々は、QSモデルを階層的な深層多モードニューラルネットワークに統合し、医用画像に関するクエリに対する適切な回答を生成する。
論文 参考訳(メタデータ) (2020-09-27T07:24:41Z) - Multiple interaction learning with question-type prior knowledge for
constraining answer search space in visual question answering [24.395733613284534]
質問型事前情報を利用してVQAを改善する新しいVQAモデルを提案する。
VQA 2.0とTDIUCという2つのベンチマークデータセットの固体実験は、提案手法が最も競争力のあるアプローチで最高の性能を得ることを示している。
論文 参考訳(メタデータ) (2020-09-23T12:54:34Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。