論文の概要: FETAL-GAUGE: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound
- arxiv url: http://arxiv.org/abs/2512.22278v1
- Date: Thu, 25 Dec 2025 04:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.953792
- Title: FETAL-GAUGE: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound
- Title(参考訳): 胎児-GAUGE:胎児超音波の視線モデル評価のためのベンチマーク
- Authors: Hussain Alasmawi, Numan Saeed, Mohammad Yaqub,
- Abstract要約: 出生前超音波画像の需要は、訓練されたソノグラフィーの世界的な不足を増している。
深層学習は、ソノグラフィーの効率を高め、新しい実践者の訓練を支援する可能性がある。
We present Fetal-Gauge, the first and largest visual question answering benchmark designed to evaluate Vision-Language Models (VLMs)。
対象は,42,000枚以上の画像と93,000枚の質問応答対,解剖学的平面同定,解剖学的形態の視覚的グラウンドニング,胎児の配向評価,臨床像の適合性,臨床診断である。
- 参考スコア(独自算出の注目度): 2.8097961263689406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for prenatal ultrasound imaging has intensified a global shortage of trained sonographers, creating barriers to essential fetal health monitoring. Deep learning has the potential to enhance sonographers' efficiency and support the training of new practitioners. Vision-Language Models (VLMs) are particularly promising for ultrasound interpretation, as they can jointly process images and text to perform multiple clinical tasks within a single framework. However, despite the expansion of VLMs, no standardized benchmark exists to evaluate their performance in fetal ultrasound imaging. This gap is primarily due to the modality's challenging nature, operator dependency, and the limited public availability of datasets. To address this gap, we present Fetal-Gauge, the first and largest visual question answering benchmark specifically designed to evaluate VLMs across various fetal ultrasound tasks. Our benchmark comprises over 42,000 images and 93,000 question-answer pairs, spanning anatomical plane identification, visual grounding of anatomical structures, fetal orientation assessment, clinical view conformity, and clinical diagnosis. We systematically evaluate several state-of-the-art VLMs, including general-purpose and medical-specific models, and reveal a substantial performance gap: the best-performing model achieves only 55\% accuracy, far below clinical requirements. Our analysis identifies critical limitations of current VLMs in fetal ultrasound interpretation, highlighting the urgent need for domain-adapted architectures and specialized training approaches. Fetal-Gauge establishes a rigorous foundation for advancing multimodal deep learning in prenatal care and provides a pathway toward addressing global healthcare accessibility challenges. Our benchmark will be publicly available once the paper gets accepted.
- Abstract(参考訳): 出生前超音波画像の需要の増加は、訓練されたソノグラフィーの世界的な不足を増し、胎児の健康モニタリングに欠かせない障壁を生み出している。
深層学習は、ソノグラフィーの効率を高め、新しい実践者の訓練を支援する可能性がある。
VLM(Vision-Language Models)は、画像とテキストを共同で処理し、1つのフレームワーク内で複数の臨床タスクを実行できるため、超音波の解釈に特に有望である。
しかしながら、VLMの拡張にもかかわらず、胎児超音波画像におけるその性能を評価するための標準ベンチマークは存在しない。
このギャップは、主に、モダリティの難しい性質、オペレータ依存、データセットのパブリック可用性の制限によるものだ。
このギャップに対処するために、様々な胎児超音波タスクでVLMを評価するために特別に設計された最初の、そして最大の視覚的質問応答ベンチマークであるFetal-Gaugeを紹介する。
対象は,42,000枚以上の画像と93,000枚の質問応答対,解剖学的平面同定,解剖学的形態の視覚的グラウンドニング,胎児の配向評価,臨床像の適合性,臨床診断である。
汎用モデルや医療特化モデルなど,いくつかの最先端VLMを体系的に評価し,その性能差を顕著に明らかにした。
本分析では, 胎児超音波診断における現在のVLMの限界を認識し, ドメイン適応型アーキテクチャと専門訓練アプローチの緊急性を強調した。
Fetal-Gaugeは、出生前医療におけるマルチモーダルなディープラーニングを促進するための厳格な基盤を確立し、グローバルな医療アクセシビリティの課題に対処するための道筋を提供する。
私たちのベンチマークは、論文が受理されれば公開されます。
関連論文リスト
- Epistemic-aware Vision-Language Foundation Model for Fetal Ultrasound Interpretation [83.02147613524032]
医療用AIシステムFetalMindについて報告する。
本稿では、専門家による2部グラフをモデルに注入し、ビュー・ディスリーズ関連を分離するSED(Salient Epistemic Disentanglement)を提案する。
FetalMindはすべての妊娠期のオープンソースおよびクローズドソースベースラインを上回り、平均利得は+14%、臨界条件では+61.2%高い。
論文 参考訳(メタデータ) (2025-10-14T19:57:03Z) - A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding [25.81008688779866]
U2-BENCHは,分類,検出,回帰,テキスト生成タスクにおける超音波理解における大規模視覚言語モデル(LVLM)の評価を行うための,最初の総合ベンチマークである。
U2-BENCHは15の解剖学的領域にまたがる7,241の症例を集計し、診断、ビュー認識、病変の局在、臨床値の推定、報告生成など、50の超音波応用シナリオで8つの臨床的にインスパイアされたタスクを定義している。
画像レベルの分類では高い性能を示したが,空間推論や臨床言語生成の難しさが指摘された。
論文 参考訳(メタデータ) (2025-05-23T11:48:48Z) - FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis [1.8708892537037023]
FetalCLIPは胎児超音波画像の普遍的な表現を生成できる視覚言語基盤モデルである。
テキストと組み合わせた210,035個の胎児超音波画像から,マルチモーダル・ラーニング・アプローチを用いて事前訓練を行った。
論文 参考訳(メタデータ) (2025-02-20T18:30:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Hybrid Attention for Automatic Segmentation of Whole Fetal Head in
Prenatal Ultrasound Volumes [52.53375964591765]
胎児の頭部全体を米国全巻に分割する,最初の完全自動化ソリューションを提案する。
セグメント化タスクは、まずエンコーダ-デコーダディープアーキテクチャの下で、エンドツーエンドのボリュームマッピングとして定式化される。
次に,セグメンタとハイブリットアテンションスキーム(HAS)を組み合わせることで,識別的特徴を選択し,非情報量的特徴を抑える。
論文 参考訳(メタデータ) (2020-04-28T14:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。