論文の概要: Localized Questions in Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2307.01067v1
- Date: Mon, 3 Jul 2023 14:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 12:40:29.964702
- Title: Localized Questions in Medical Visual Question Answering
- Title(参考訳): 医用視覚質問応答における局所的質問
- Authors: Sergio Tascon-Morales and Pablo M\'arquez-Neila and Raphael Sznitman
- Abstract要約: VQA(Visual Question Answering)モデルは、与えられた画像に関する自然言語の質問に答えることを目的としている。
既存の医療用VQAモデルは、画像全体を参照する質問に答えることに重点を置いている。
本稿では、画像領域に関する疑問に答えられるモデルを開発することにより、この限界に対処する医療用VQAの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.005299372367689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) models aim to answer natural language
questions about given images. Due to its ability to ask questions that differ
from those used when training the model, medical VQA has received substantial
attention in recent years. However, existing medical VQA models typically focus
on answering questions that refer to an entire image rather than where the
relevant content may be located in the image. Consequently, VQA models are
limited in their interpretability power and the possibility to probe the model
about specific image regions. This paper proposes a novel approach for medical
VQA that addresses this limitation by developing a model that can answer
questions about image regions while considering the context necessary to answer
the questions. Our experimental results demonstrate the effectiveness of our
proposed model, outperforming existing methods on three datasets. Our code and
data are available at https://github.com/sergiotasconmorales/locvqa.
- Abstract(参考訳): VQA(Visual Question Answering)モデルは、与えられた画像に関する自然言語の質問に答えることを目的としている。
モデルトレーニングで使用するものと異なる質問をすることができることから,近年,医療用VQAが注目されている。
しかしながら、既存の医療用VQAモデルは一般的に、画像中の関連するコンテンツがどこにあるかではなく、画像全体を参照する質問に答えることに焦点を当てている。
したがって、VQAモデルは、その解釈可能性と特定の画像領域についてモデルを探索する可能性に制限される。
本稿では,画像領域に関する質問に対して,質問への回答に必要な文脈を考慮しながら回答できるモデルを開発することにより,この制限に対処できる医療用vqaの新しいアプローチを提案する。
実験の結果,提案モデルの有効性を実証し,既存の手法を3つのデータセットで比較した。
私たちのコードとデータはhttps://github.com/sergiotasconmorales/locvqaで入手できます。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual
Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。
データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。
提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-05-07T03:59:31Z) - Interpretable Medical Image Visual Question Answering via Multi-Modal
Relationship Graph Learning [45.746882253686856]
医用視覚質問応答 (VQA) は、入力医療画像に関する臨床的に関係のある質問に答えることを目的としている。
まず,胸部X線画像を中心に,包括的で大規模な医療用VQAデータセットを収集した。
このデータセットに基づいて、3つの異なる関係グラフを構築することによって,新たなベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:46:16Z) - Self-supervised vision-language pretraining for Medical visual question
answering [9.073820229958054]
そこで本稿では,M2I2 による事前学習に Masked 画像モデリング, Masked 言語モデリング, 画像テキストマッチング, 画像テキストアライメントを適用した自己教師付き手法を提案する。
提案手法は,3つの医療用VQAデータセットのすべてに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T13:31:56Z) - Consistency-preserving Visual Question Answering in Medical Imaging [2.005299372367689]
VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。
本稿では,課題間の関係を学習プロセスに含める新しい損失関数とそれに対応する訓練手順を提案する。
実験の結果,本手法は最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-27T13:38:50Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。