論文の概要: Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2508.12036v1
- Date: Sat, 16 Aug 2025 13:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.539095
- Title: Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering
- Title(参考訳): Q-FSRU : 医学的視力検査のための量子増幅周波数スペクトル核融合
- Authors: Rakesh Thakur, Yusra Tariq,
- Abstract要約: 本稿では、周波数スペクトル表現と融合(FSRU)と量子検索拡張生成(Quantum Retrieval-Augmented Generation:量子RAG)を組み合わせた医用視覚質問応答(VQA)の新しいモデルであるQ-FSRUを提案する。
Q-FSRUは医療画像や関連テキストから特徴を抽出し、Fast Fourier Transform (FFT) を用いて周波数領域にシフトする。
精度を向上し、実際の知識に基づいて回答を確実にするために、量子に着想を得た検索システムを追加します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving tough clinical questions that require both image and text understanding is still a major challenge in healthcare AI. In this work, we propose Q-FSRU, a new model that combines Frequency Spectrum Representation and Fusion (FSRU) with a method called Quantum Retrieval-Augmented Generation (Quantum RAG) for medical Visual Question Answering (VQA). The model takes in features from medical images and related text, then shifts them into the frequency domain using Fast Fourier Transform (FFT). This helps it focus on more meaningful data and filter out noise or less useful information. To improve accuracy and ensure that answers are based on real knowledge, we add a quantum-inspired retrieval system. It fetches useful medical facts from external sources using quantum-based similarity techniques. These details are then merged with the frequency-based features for stronger reasoning. We evaluated our model using the VQA-RAD dataset, which includes real radiology images and questions. The results showed that Q-FSRU outperforms earlier models, especially on complex cases needing image-text reasoning. The mix of frequency and quantum information improves both performance and explainability. Overall, this approach offers a promising way to build smart, clear, and helpful AI tools for doctors.
- Abstract(参考訳): 画像とテキストの理解を必要とする難しい臨床問題の解決は、医療AIにおいて依然として大きな課題である。
本稿では,周波数スペクトル表現と融合(FSRU)と量子検索・拡張生成(Quantum Retrieval-Augmented Generation, 量子RAG)を組み合わせた医用視覚質問応答(VQA)の新しいモデルであるQ-FSRUを提案する。
このモデルは、医療画像と関連するテキストから機能を取り込み、Fast Fourier Transform (FFT)を使用して周波数領域にシフトする。
これにより、より意味のあるデータに集中し、ノイズや役に立たない情報をフィルタリングすることが可能になる。
精度を向上し、実際の知識に基づいて回答を確実にするために、量子に着想を得た検索システムを追加します。
量子ベースの類似性技術を用いて、外部ソースから有用な医療事実を取り出す。
これらの詳細は、より強力な推論のために周波数ベースの特徴とマージされる。
実画像と質問を含むVQA-RADデータセットを用いて,本モデルの評価を行った。
その結果、Q-FSRUは、特に画像テキスト推論を必要とする複雑なケースにおいて、初期のモデルよりも優れていた。
周波数と量子情報の混合は、性能と説明可能性の両方を改善する。
全体として、このアプローチは、医師のためのスマートで明確で有用なAIツールを構築するための有望な方法を提供する。
関連論文リスト
- Structure Causal Models and LLMs Integration in Medical Visual Question Answering [42.54219413108453]
MedVQAタスクのための因果推論フレームワークを提案する。
視覚的要素とテキスト的要素の相互作用を表す新しい因果グラフ構造を最初に導入する。
本手法は複雑な医療データに面した真の因果相関を実現する。
論文 参考訳(メタデータ) (2025-05-05T14:57:02Z) - Quantum Generative Learning for High-Resolution Medical Image Generation [1.189046876525661]
既存のQGAN(Quantum Generative Adversarial Network)は、パッチベースのピクセル単位の学習アプローチのため、高品質な画像を生成することができない。
高品質な医用画像生成のための量子画像生成学習(QIGL)手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T04:04:32Z) - Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。
本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。
我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-23T20:26:52Z) - XAIQA: Explainer-Based Data Augmentation for Extractive Question
Answering [1.1867812760085572]
我々は,電子カルテで自然に利用可能なデータから,合成QAペアを大規模に生成するための新しいアプローチであるXAIQAを紹介する。
本手法は、分類モデル説明器の考え方を用いて、医療規範に対応する医療概念に関する質問や回答を生成する。
論文 参考訳(メタデータ) (2023-12-06T15:59:06Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。