論文の概要: Computed Tomography Visual Question Answering with Cross-modal Feature Graphing
- arxiv url: http://arxiv.org/abs/2507.04333v1
- Date: Sun, 06 Jul 2025 10:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.12513
- Title: Computed Tomography Visual Question Answering with Cross-modal Feature Graphing
- Title(参考訳): クロスモーダルな特徴グラフによるコンピュータ断層撮影による視覚的質問応答
- Authors: Yuanhe Tian, Chen Su, Junwen Duan, Yan Song,
- Abstract要約: 医用画像における視覚的質問応答 (VQA) は、自然言語クエリに応答して複雑な画像データを自動的に解釈することにより、臨床診断を支援することを目的としている。
既存の研究は、医用画像と臨床の質問から特徴を独立して抽出するために、視覚的およびテキスト的エンコーダに頼っている。
本稿では,有能な特徴のグラフ表現によって強化された新しい大規模言語モデル(LLM)ベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.269682136158004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) in medical imaging aims to support clinical diagnosis by automatically interpreting complex imaging data in response to natural language queries. Existing studies typically rely on distinct visual and textual encoders to independently extract features from medical images and clinical questions, which are subsequently combined to generate answers. Specifically, in computed tomography (CT), such approaches are similar to the conventional practices in medical image analysis. However, these approaches pay less attention to the spatial continuity and inter-slice correlations in the volumetric CT data, leading to fragmented and imprecise responses. In this paper, we propose a novel large language model (LLM)-based framework enhanced by a graph representation of salient features. Different from conventional multimodal encoding strategies, our approach constructs a cross-modal graph integrating both visual and textual features, treating individual CT slices and question tokens as nodes within the graph. We further leverage an attentive graph convolutional network to dynamically fuse information within this structure. The resulting aggregated graph features then serve as a soft prompt to guide a large language model in generating accurate answers. Extensive experiments on the M3D-VQA benchmark demonstrate that our approach consistently outperforms baselines across multiple evaluation metrics, offering more robust reasoning capabilities.
- Abstract(参考訳): 医用画像における視覚的質問応答 (VQA) は、自然言語クエリに応答して複雑な画像データを自動的に解釈することにより、臨床診断を支援することを目的としている。
既存の研究は、医用画像と臨床の質問から特徴を独立して抽出するために、視覚的およびテキスト的エンコーダに頼っている。
特にCT(Computerd tomography)では,従来の医用画像解析と類似している。
しかし,これらの手法はCTデータの空間的連続性やスライス間相関にはあまり注意を払わず,断片的かつ不正確な応答をもたらす。
本稿では,有能な特徴のグラフ表現によって強化された,新しい大規模言語モデル(LLM)に基づくフレームワークを提案する。
従来のマルチモーダル符号化戦略とは違って,視覚的特徴とテキスト的特徴を統合したクロスモーダルグラフを構築し,個々のCTスライスと質問トークンをグラフ内のノードとして扱う。
さらに、注意グラフ畳み込みネットワークを利用して、この構造内の情報を動的に融合する。
結果として得られる集約グラフ機能は、正しい回答を生成するために大きな言語モデルを導くためのソフトプロンプトとして機能する。
M3D-VQAベンチマークの大規模な実験は、我々のアプローチが複数の評価指標で一貫してベースラインを上回り、より堅牢な推論機能を提供することを示した。
関連論文リスト
- Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis [44.38638601819933]
現在の糖尿病網膜症(DR)のステージングモデルはほとんど解釈できない。
本稿では,グラフ表現学習を視覚言語モデル(VLM)と統合し,説明可能なDR診断を実現する手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:19:07Z) - EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models [69.40730368630003]
医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。
画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph [32.1234295417225]
本稿では,放射線科医が収集した視線データを用いて視覚的な探索行動パターンをシミュレートする,文脈対応型Gaze EstiMation (GEM) ネットワークを提案する。
コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。
4つの公開データセットの実験は、既存の方法よりもGEMの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-08-10T09:46:25Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。