論文の概要: Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion
- arxiv url: http://arxiv.org/abs/2504.03135v1
- Date: Fri, 04 Apr 2025 03:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:21.209858
- Title: Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion
- Title(参考訳): クロスアテンション・フュージョンを用いた医用視覚質問応答の階層的モデリング
- Authors: Junkai Zhang, Bin Li, Shoujun Zhou, Yue Du,
- Abstract要約: Med-VQA (Medicical Visual Question Answering) は、医療画像を用いて臨床的な疑問に答え、診断を支援する。
本研究では, 詳細な医療質問に対する階層型プロンプティングと階層型アンサーデコーダの2つのモジュールを含むHiCA-VQA法を提案する。
Rad-Restructベンチマークの実験により、HiCA-VQAフレームワークは階層的なきめ細かい質問に答える上で、既存の最先端メソッドよりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 4.821565717653691
- License:
- Abstract: Medical Visual Question Answering (Med-VQA) answers clinical questions using medical images, aiding diagnosis. Designing the MedVQA system holds profound importance in assisting clinical diagnosis and enhancing diagnostic accuracy. Building upon this foundation, Hierarchical Medical VQA extends Medical VQA by organizing medical questions into a hierarchical structure and making level-specific predictions to handle fine-grained distinctions. Recently, many studies have proposed hierarchical MedVQA tasks and established datasets, However, several issues still remain: (1) imperfect hierarchical modeling leads to poor differentiation between question levels causing semantic fragmentation across hierarchies. (2) Excessive reliance on implicit learning in Transformer-based cross-modal self-attention fusion methods, which obscures crucial local semantic correlations in medical scenarios. To address these issues, this study proposes a HiCA-VQA method, including two modules: Hierarchical Prompting for fine-grained medical questions and Hierarchical Answer Decoders. The hierarchical prompting module pre-aligns hierarchical text prompts with image features to guide the model in focusing on specific image regions according to question types, while the hierarchical decoder performs separate predictions for questions at different levels to improve accuracy across granularities. The framework also incorporates a cross-attention fusion module where images serve as queries and text as key-value pairs. Experiments on the Rad-Restruct benchmark demonstrate that the HiCA-VQA framework better outperforms existing state-of-the-art methods in answering hierarchical fine-grained questions. This study provides an effective pathway for hierarchical visual question answering systems, advancing medical image understanding.
- Abstract(参考訳): Med-VQA (Medicical Visual Question Answering) は、医療画像を用いて臨床的な疑問に答え、診断を支援する。
MedVQAシステムの設計は、臨床診断の支援と診断精度の向上に極めて重要である。
この基盤の上に構築された階層医療VQAは、医療質問を階層構造に整理し、きめ細かい区別を扱うためにレベル固有の予測を行うことによって医療VQAを拡張する。
近年、多くの研究が階層的MedVQAタスクと確立されたデータセットを提案しているが、(1)不完全な階層的モデリングは、階層間のセマンティック・フラグメンテーションを引き起こす質問レベル間の分化を損なう。
2)トランスフォーマーを用いた相互自己注意融合法における暗黙的学習への過剰依存は,医療シナリオにおける重要な局所的意味的相関を曖昧にしている。
これらの課題に対処するため, 階層型医療質問のための階層型プロンプティングと階層型アンサーデコーダの2つのモジュールを含むHiCA-VQA手法を提案する。
階層的プロンプトモジュールは、階層的テキストを予め設定し、質問タイプに応じて特定の画像領域に焦点を合わせながらモデルを誘導し、階層的デコーダは、異なるレベルで質問の予測を行い、粒度にわたって精度を向上させる。
このフレームワークには、クエリやテキストをキーと値のペアとして機能する、クロスアテンション融合モジュールも組み込まれている。
Rad-Restructベンチマークの実験により、HiCA-VQAフレームワークは階層的なきめ細かい質問に答える上で、既存の最先端メソッドよりも優れていることが示されている。
本研究は, 医用画像理解の進歩により, 階層型視覚質問応答システムに有効な経路を提供する。
関連論文リスト
- MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断(GEMeX)のための大規模・地中・説明可能な医用VQAベンチマークを導入する。
151,025の画像と1,605,575の質問により、GEMeXは現在最大の胸部X線VQAデータセットである。
論文 参考訳(メタデータ) (2024-11-25T07:36:46Z) - Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering [45.058569118999436]
メインイメージとレファレンスイメージのペアが与えられたこのタスクは、両方の疾患に関するいくつかの疑問に答えようとしている。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-07-22T05:34:18Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - Hierarchical Deep Multi-modal Network for Medical Visual Question
Answering [25.633660028022195]
本稿では,エンドユーザの質問/問い合わせを分析し,分類する階層的なディープマルチモーダルネットワークを提案する。
我々は、QSモデルを階層的な深層多モードニューラルネットワークに統合し、医用画像に関するクエリに対する適切な回答を生成する。
論文 参考訳(メタデータ) (2020-09-27T07:24:41Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。