論文の概要: Location-Aware Pretraining for Medical Difference Visual Question Answering
- arxiv url: http://arxiv.org/abs/2603.04950v1
- Date: Thu, 05 Mar 2026 08:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.146137
- Title: Location-Aware Pretraining for Medical Difference Visual Question Answering
- Title(参考訳): 医用差分視覚質問応答のための位置情報事前学習
- Authors: Denis Musinguzi, Caren Han, Prasenjit Mitra,
- Abstract要約: 位置認識タスクを組み込んだ事前学習フレームワークを導入する。
これらの特定のタスクにより、視覚エンコーダは細粒度で空間的に接地された視覚表現を学習することができる。
次に、この拡張視覚エンコーダを言語モデルと統合し、医用差分VQAを実行する。
- 参考スコア(独自算出の注目度): 14.75114843903826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike conventional single-image models, differential medical VQA frameworks process multiple images to identify differences, mirroring the comparative diagnostic workflow of radiologists. However, standard vision encoders trained on contrastive or classification objectives often fail to capture the subtle visual variations necessary for distinguishing disease progression from acquisition differences. To address this limitation, we introduce a pretraining framework that incorporates location-aware tasks, including automatic referring expressions (AREF), grounded captioning (GCAP), and conditional automatic referring expressions (CAREF). These specific tasks enable the vision encoder to learn fine-grained, spatially grounded visual representations that are often overlooked by traditional pre-training methods. We subsequently integrate this enhanced vision encoder with a language model to perform medical difference VQA. Experimental results demonstrate that our approach achieves state-of-the-art performance in detecting and reasoning about clinically relevant changes in chest X-ray images.
- Abstract(参考訳): 従来の単一画像モデルとは異なり、ディファレンシャル医療用VQAフレームワークは複数の画像を処理して違いを識別し、放射線医の比較診断ワークフローを反映している。
しかし、コントラストや分類の目的に基づいて訓練された標準的な視覚エンコーダは、疾患の進行と取得の違いを区別するのに必要な微妙な視覚的変化を捉えることができないことが多い。
この制限に対処するために、自動参照式(AREF)、接地キャプション(GCAP)、条件付き自動参照式(CAREF)を含む位置認識タスクを組み込んだ事前学習フレームワークを導入する。
これらの特定のタスクにより、視覚エンコーダは、伝統的な事前学習手法によって見落とされがちな、きめ細かい空間的な視覚表現を学習することができる。
次に、この拡張視覚エンコーダを言語モデルと統合し、医用差分VQAを実行する。
胸部X線画像の臨床的変化の検出と推論において,本手法は最先端の性能を達成できることが実験的に証明された。
関連論文リスト
- Visual concept ranking uncovers medical shortcuts used by large multimodal models [1.1082922912570348]
大規模マルチモーダルモデル(LMM)において重要な視覚概念を識別する手法を提案する。
臨床皮膚画像から悪性皮膚病変を分類する作業に主に焦点をあてる。
論文 参考訳(メタデータ) (2026-02-04T22:27:34Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays [6.351190845487287]
差分視覚質問応答(diff-VQA)は、画像間の差分に基づいて複雑な質問に答えることを必要とする課題である。
以前はdiff-VQAタスクのための特定のネットワークアーキテクチャの設計に重点が置かれていたが、モデルの性能を高める機会がなかった。
本稿では,diff-VQAタスクのための自然および縦部胸部X線データに基づいて,PLURALと呼ばれる新しいVLMを提案する。
論文 参考訳(メタデータ) (2024-02-14T06:20:48Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering [45.058569118999436]
メインイメージとレファレンスイメージのペアが与えられたこのタスクは、両方の疾患に関するいくつかの疑問に答えようとしている。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-07-22T05:34:18Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。