論文の概要: Saliency Guided Longitudinal Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2509.25374v1
- Date: Mon, 29 Sep 2025 18:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.266421
- Title: Saliency Guided Longitudinal Medical Visual Question Answering
- Title(参考訳): 経時的医用視力検査による唾液価の経時的変化
- Authors: Jialin Wu, Xiaofeng Liu,
- Abstract要約: 縦断的視覚的質問応答(Diff-VQA)は、異なる時間点からペアによる研究を比較する必要がある。
本稿では, 胸部X線Diff-VQAのためのサリエンシ誘導型エンコーダデコーダを提案する。
- 参考スコア(独自算出の注目度): 9.991158264639209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Longitudinal medical visual question answering (Diff-VQA) requires comparing paired studies from different time points and answering questions about clinically meaningful changes. In this setting, the difference signal and the consistency of visual focus across time are more informative than absolute single-image findings. We propose a saliency-guided encoder-decoder for chest X-ray Diff-VQA that turns post-hoc saliency into actionable supervision. The model first performs a lightweight near-identity affine pre-alignment to reduce nuisance motion between visits. It then executes a within-epoch two-step loop: step 1 extracts a medically relevant keyword from the answer and generates keyword-conditioned Grad-CAM on both images to obtain disease-focused saliency; step 2 applies the shared saliency mask to both time points and generates the final answer. This closes the language-vision loop so that the terms that matter also guide where the model looks, enforcing spatially consistent attention on corresponding anatomy. On Medical-Diff-VQA, the approach attains competitive performance on BLEU, ROUGE-L, CIDEr, and METEOR while providing intrinsic interpretability. Notably, the backbone and decoder are general-domain pretrained without radiology-specific pretraining, highlighting practicality and transferability. These results support saliency-conditioned generation with mild pre-alignment as a principled framework for longitudinal reasoning in medical VQA.
- Abstract(参考訳): 縦断的医学的視覚的質問応答 (Diff-VQA) は、異なる時点からペア研究を比較し、臨床的に有意な変化について質問に答えることを必要とする。
この設定では、時間的差分信号と視覚的焦点の整合性は、絶対的な単一像の発見よりも有益である。
本稿では, 胸部X線Diff-VQAのためのサリエンシ誘導型エンコーダデコーダを提案する。
モデルはまず、訪問間のニュアンス運動を低減するために、軽量な近接同一性アフィン事前調整を実行する。
ステップ1は、回答から医療関連キーワードを抽出し、両方の画像上でキーワード条件のGrad-CAMを生成して、疾患に焦点をあてた順に取得し、ステップ2は、両時点に共有唾液マスクを適用して最終回答を生成する。
これは言語ビジョンのループを閉じて、その用語がモデルがどこに見えるかを導くようにし、対応する解剖学に空間的に一貫した注意を向ける。
Medical-Diff-VQAでは, 本手法は, BLEU, ROUGE-L, CIDEr, METEORにおける本質的な解釈性を提供しながら, 競争性能を得る。
特に、バックボーンとデコーダは、放射線学固有の事前訓練なしで事前訓練された一般ドメインであり、実用性と転送性を強調している。
これらの結果は, 医療用VQAにおける縦断的推論の原則的枠組みとして, 軽度の事前調整を施した塩分濃度条件生成を支援する。
関連論文リスト
- CardiacCLIP: Video-based CLIP Adaptation for LVEF Prediction in a Few-shot Manner [14.429336783145644]
左室放出分画(LVEF)は心臓機能の指標となる。
既存のLVEF推定手法は、大規模な注釈付きビデオデータセットに依存する。
我々は、注目ベースのフレームアグリゲーションとマルチレゾリューション・インプット・スケーリングによるLVEF予測を強化する、ビデオベースのフレームワークであるCardiacCLIPを提案する。
論文 参考訳(メタデータ) (2025-09-21T12:52:08Z) - GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [45.248265283405004]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文 参考訳(メタデータ) (2025-05-21T05:16:45Z) - Longitudinal Segmentation of MS Lesions via Temporal Difference Weighting [2.0168790328644697]
本稿では,ベースラインとフォローアップスキャンの時間的差を,差分重みブロックと呼ばれるユニークなアーキテクチャ的帰納バイアスによって明示的に取り込む新しい手法を提案する。
本研究は,2つのデータセットにまたがる最先端の縦・単点モデルと比較して,病変のセグメンテーションおよび病変検出において優れたスコアを得る。
論文 参考訳(メタデータ) (2024-09-20T11:30:54Z) - Real-time guidewire tracking and segmentation in intraoperative x-ray [52.51797358201872]
リアルタイムガイドワイヤ分割と追跡のための2段階のディープラーニングフレームワークを提案する。
第1段階では、ヨロフ5検出器が元のX線画像と合成画像を使って訓練され、ターゲットのガイドワイヤのバウンディングボックスを出力する。
第2段階では、検出された各バウンディングボックスにガイドワイヤを分割するために、新規で効率的なネットワークが提案されている。
論文 参考訳(メタデータ) (2024-04-12T20:39:19Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - UnICLAM:Contrastive Representation Learning with Adversarial Masking for
Unified and Interpretable Medical Vision Question Answering [7.2486693553383805]
現在のメディカルVQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、クロスモーダル表現を学習する。
本稿では,Unified and Interpretable Medical-VQAモデルであるUnICLAMを提案する。
VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-12-21T02:48:15Z) - Cloth-Changing Person Re-identification from A Single Image with Gait
Prediction and Regularization [65.50321170655225]
本稿では,画像レイドモデルを用いて布非依存表現を学習するための補助タスクとして,歩行認識を導入する。
画像ベースのCloth-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2021-03-29T12:10:50Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。