論文の概要: Interpretable Medical Image Visual Question Answering via Multi-Modal
Relationship Graph Learning
- arxiv url: http://arxiv.org/abs/2302.09636v1
- Date: Sun, 19 Feb 2023 17:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:23:13.388345
- Title: Interpretable Medical Image Visual Question Answering via Multi-Modal
Relationship Graph Learning
- Title(参考訳): マルチモーダル関係グラフ学習による医用画像視覚質問応答の解釈
- Authors: Xinyue Hu, Lin Gu, Kazuma Kobayashi, Qiyuan An, Qingyu Chen, Zhiyong
Lu, Chang Su, Tatsuya Harada, Yingying Zhu
- Abstract要約: 医用視覚質問応答 (VQA) は、入力医療画像に関する臨床的に関係のある質問に答えることを目的としている。
まず,胸部X線画像を中心に,包括的で大規模な医療用VQAデータセットを収集した。
このデータセットに基づいて、3つの異なる関係グラフを構築することによって,新たなベースライン手法を提案する。
- 参考スコア(独自算出の注目度): 45.746882253686856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical visual question answering (VQA) aims to answer clinically relevant
questions regarding input medical images. This technique has the potential to
improve the efficiency of medical professionals while relieving the burden on
the public health system, particularly in resource-poor countries. Existing
medical VQA methods tend to encode medical images and learn the correspondence
between visual features and questions without exploiting the spatial, semantic,
or medical knowledge behind them. This is partially because of the small size
of the current medical VQA dataset, which often includes simple questions.
Therefore, we first collected a comprehensive and large-scale medical VQA
dataset, focusing on chest X-ray images. The questions involved detailed
relationships, such as disease names, locations, levels, and types in our
dataset. Based on this dataset, we also propose a novel baseline method by
constructing three different relationship graphs: spatial relationship,
semantic relationship, and implicit relationship graphs on the image regions,
questions, and semantic labels. The answer and graph reasoning paths are
learned for different questions.
- Abstract(参考訳): 医用視覚質問応答 (VQA) は、入力医療画像に関する臨床的に関連する質問に答えることを目的としている。
この手法は、特に資源汚染国における公衆衛生システムの負担を軽減しつつ、医療専門家の効率を向上させる可能性を秘めている。
既存の医療用VQA法では、背景にある空間的、意味的、医療的知識を活用することなく、医用画像を符号化し、視覚的特徴と質問の対応を学習する傾向がある。
これは部分的には、しばしば単純な質問を含む現在の医療用VQAデータセットの小さいためである。
そこで我々はまず胸部X線画像を中心に,包括的で大規模な医療用VQAデータセットを収集した。
質問は、データセット内の病名、場所、レベル、タイプなど、詳細な関係に関するものだった。
このデータセットに基づいて,画像領域,質問,意味ラベルの3つの異なる関係グラフ(空間関係,意味関係,暗黙の関係グラフ)を構築することで,新たなベースライン手法を提案する。
回答とグラフ推論パスは、異なる質問に対して学習される。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering [45.058569118999436]
メインイメージとレファレンスイメージのペアが与えられたこのタスクは、両方の疾患に関するいくつかの疑問に答えようとしている。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-07-22T05:34:18Z) - Localized Questions in Medical Visual Question Answering [2.005299372367689]
VQA(Visual Question Answering)モデルは、与えられた画像に関する自然言語の質問に答えることを目的としている。
既存の医療用VQAモデルは、画像全体を参照する質問に答えることに重点を置いている。
本稿では、画像領域に関する疑問に答えられるモデルを開発することにより、この限界に対処する医療用VQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:47:18Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。