論文の概要: EchoVQA: Enabling Conversational Assistance for Point-of-Care Cardiac Ultrasound
- arxiv url: http://arxiv.org/abs/2605.24159v1
- Date: Fri, 22 May 2026 19:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.655005
- Title: EchoVQA: Enabling Conversational Assistance for Point-of-Care Cardiac Ultrasound
- Title(参考訳): EchoVQA:ポイント・オブ・ケア心エコーのための会話支援
- Authors: Filippos Bellos, Yutong Li, Jessie N Dong, Zaiyang Guo, Emily Mackay, Yayuan Li, Yannis Avrithis, Alison Pouch, Jason J. Corso,
- Abstract要約: 本稿では,14,299枚の画像と74,819枚の質問応答対からなる,心エコー図用VQAデータセットとして初の大規模データセットであるEchoVQAを紹介する。
EchoVQAには、左室放出率推定のための診断用4チャンバービューへのトランスデューサ位置の最適化を支援するための取得誘導質問が含まれている。
- 参考スコア(独自算出の注目度): 18.04473134587132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point-of-care transthoracic echocardiography (TTE) enables cardiac assessment in virtually any clinical setting, yet its diagnostic utility remains constrained by the expertise required for image acquisition and interpretation. Visual question answering (VQA) offers a promising paradigm for bridging this expertise gap through interactive clinical assistance, but existing echocardiography VQA datasets are limited in scale, restricted to high-quality images, and only cover a few views. We introduce EchoVQA, the first large-scale VQA dataset for echocardiography, comprising 14,299 images and 74,819 question-answer pairs. The dataset integrates public sources (EchoNet-Dynamic, CAMUS) with our own point-of-care acquisitions from two handheld probes (Lumify, Clarius), spanning diverse views and including both high-quality and suboptimal images. Uniquely, EchoVQA includes acquisition guidance questions to help users optimize transducer positioning toward a diagnostic apical 4-chamber view for left ventricular ejection fraction estimation -- a challenging task for novice operators in point-of-care settings. We further develop a parameter-efficient method based on multimodal learnable prompts achieving state-of-the-art performance on most benchmarks, including EchoVQA, with significantly less trainable parameters than existing state-of-the-art approaches.
- Abstract(参考訳): ポイント・オブ・ケア経胸壁心エコー法(Point-of-care transthoracic echocardiography, TTE)は、ほぼあらゆる臨床領域において心臓の診断を可能にするが、画像の取得と解釈に必要な専門知識によって診断の有用性は制限されている。
視覚的質問応答(VQA)は、インタラクティブな臨床支援を通じて、この専門的ギャップをブリッジするための有望なパラダイムを提供する。
本稿では,14,299枚の画像と74,819枚の質問応答対からなる,心エコー図用VQAデータセットとして初の大規模データセットであるEchoVQAを紹介する。
このデータセットは、公開ソース(EchoNet-Dynamic, CAMUS)と、2つのハンドヘルドプローブ(Lumify, Clarius)からの独自のポイント・オブ・ケアの取得を統合する。
ユニークなのは、EchoVQAには取得ガイダンスの質問が含まれており、左室噴出率推定のための診断用4チャンバービューに向けたトランスデューサの位置決めを最適化するのに役立つ。
さらに,EchoVQAを含むほとんどのベンチマークにおいて,マルチモーダル学習可能なプロンプトに基づくパラメータ効率向上手法を開発した。
関連論文リスト
- VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance [57.43511837589102]
我々は、膨大なデータセットから基礎モデルで学習した医療知識をプローブガイダンスタスクに適用する。
我々は,基礎モデルのイメージエンコーダが視覚アクションシーケンスをエンコードできるように,パラメータ効率のよいビジュアル・アクション・アダプタ (VA-Adapter) を巧みに設計する。
VA-Adapterは、コンパクトな設計でシーケンシャル推論機能を組み込むことで、事前訓練された超音波基礎モデルにより、精密なプローブ調整戦略を学習することができる。
論文 参考訳(メタデータ) (2025-10-08T09:38:30Z) - A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Efficient Lung Ultrasound Severity Scoring Using Dedicated Feature Extractor [12.280417624228544]
MeDiVLADは多レベル肺超音波検査のための新しいパイプラインである。
我々は、自己知識蒸留を利用して、ラベルや集合フレームレベルの特徴を伴わずに視覚変換器(ViT)を事前訓練する。
最小限の微調整により、MeDiVLADはフレームレベルおよびビデオレベルのスコアリングにおいて従来の完全教師付き手法よりも優れることを示す。
論文 参考訳(メタデータ) (2025-01-21T22:28:22Z) - EchoApex: A General-Purpose Vision Foundation Model for Echocardiography [9.202542805578432]
本稿では,初の汎用視覚基礎モデルであるEchoApexを紹介し,様々な臨床応用について紹介する。
自己教師付き学習を活用して、EchoApexは11の臨床センターから2000万以上のエコー画像に事前訓練されている。
最先端のタスク固有のモデルと比較すると、EchoApexは統一されたイメージエンコーディングアーキテクチャでパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2024-10-14T21:10:56Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。