論文の概要: U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding
- arxiv url: http://arxiv.org/abs/2505.17779v2
- Date: Fri, 30 May 2025 17:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:35.228523
- Title: U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding
- Title(参考訳): U2-BENCH:超音波理解のための大規模視覚言語モデルのベンチマーク
- Authors: Anjie Le, Henan Liu, Yue Wang, Zhenyu Liu, Rongkun Zhu, Taohan Weng, Jinze Yu, Boyang Wang, Yalun Wu, Kaiwen Yan, Quanlin Sun, Meirui Jiang, Jialun Pei, Siya Liu, Haoyun Zheng, Zhoujun Li, Alison Noble, Jacques Souquet, Xiaoqing Guo, Manxi Lin, Hongcheng Guo,
- Abstract要約: U2-BENCHは,分類,検出,回帰,テキスト生成タスクにおける超音波理解における大規模視覚言語モデル(LVLM)の評価を行うための,最初の総合ベンチマークである。
U2-BENCHは15の解剖学的領域にまたがる7,241の症例を集計し、診断、ビュー認識、病変の局在、臨床値の推定、報告生成など、50の超音波応用シナリオで8つの臨床的にインスパイアされたタスクを定義している。
画像レベルの分類では高い性能を示したが,空間推論や臨床言語生成の難しさが指摘された。
- 参考スコア(独自算出の注目度): 25.81008688779866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ultrasound is a widely-used imaging modality critical to global healthcare, yet its interpretation remains challenging due to its varying image quality on operators, noises, and anatomical structures. Although large vision-language models (LVLMs) have demonstrated impressive multimodal capabilities across natural and medical domains, their performance on ultrasound remains largely unexplored. We introduce U2-BENCH, the first comprehensive benchmark to evaluate LVLMs on ultrasound understanding across classification, detection, regression, and text generation tasks. U2-BENCH aggregates 7,241 cases spanning 15 anatomical regions and defines 8 clinically inspired tasks, such as diagnosis, view recognition, lesion localization, clinical value estimation, and report generation, across 50 ultrasound application scenarios. We evaluate 20 state-of-the-art LVLMs, both open- and closed-source, general-purpose and medical-specific. Our results reveal strong performance on image-level classification, but persistent challenges in spatial reasoning and clinical language generation. U2-BENCH establishes a rigorous and unified testbed to assess and accelerate LVLM research in the uniquely multimodal domain of medical ultrasound imaging.
- Abstract(参考訳): 超音波は、グローバル医療にとって重要な画像モダリティとして広く使われているが、その解釈は、オペレーター、ノイズ、解剖学的構造に様々な画質があるため、依然として困難である。
大規模視覚言語モデル (LVLM) は、自然領域と医療領域にまたがる印象的なマルチモーダル能力を示しているが、超音波におけるその性能はほとんど解明されていない。
U2-BENCHは,分類,検出,回帰,テキスト生成タスクにおける超音波理解のLVLMを評価するための,最初の総合的なベンチマークである。
U2-BENCHは15の解剖学的領域にまたがる7,241の症例を集計し、診断、ビュー認識、病変の局在、臨床値の推定、報告生成など、50の超音波応用シナリオで8つの臨床的にインスパイアされたタスクを定義している。
オープンソース,クローズドソース,汎用,医療に特化した20のLVLMを評価した。
画像レベルの分類では高い性能を示したが,空間推論や臨床言語生成の難しさが指摘された。
U2-BENCHは、医用超音波イメージングのユニークなマルチモーダル領域におけるLVLMの研究を評価し加速するために、厳密で統一されたテストベッドを確立する。
関連論文リスト
- Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - How Good is my Histopathology Vision-Language Foundation Model? A Holistic Benchmark [21.47220651857942]
組織学的視覚言語基礎モデル(VLM)は、下流の様々なタスクにまたがる性能と一般化性の向上により人気を博している。
既存の病理組織学のベンチマークのほとんどは、患者のデータプライバシーによる部分的な可用性だけでなく、臨床、臓器、取得機器の多様性の観点からも、一過性のものであるか制限されている。
HistoVLは、クラス名と多様な病理学的記述を組み込んだ、最大11種類の取得ツールとキャプションを用いて取得した画像からなる、完全にオープンソースな総合ベンチマークである。
論文 参考訳(メタデータ) (2025-03-17T09:45:22Z) - Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning [44.99833362998488]
医用画像解析のための階層的コントラストアライメント(HiCA)を用いた適応型視覚言語ファインタニングを提案する。
HiCAは、ドメイン固有の事前学習と階層的コントラスト学習を組み合わせて、視覚的およびテキスト的表現を複数のレベルで整列させる。
我々はChest X-rayとBreast Ultrasoundという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-01-16T05:01:30Z) - Privacy-Preserving Federated Foundation Model for Generalist Ultrasound Artificial Intelligence [83.02106623401885]
プライバシー保護型超音波基礎モデルであるUltraFedFMを提案する。
UltraFedFMは、9か国の16の分散医療機関にわたる連合学習を用いて、協調的に事前訓練されている。
疾患診断には0.927のレシーバ動作特性曲線、病変セグメント化には0.878のサイス類似係数を平均的に達成する。
論文 参考訳(メタデータ) (2024-11-25T13:40:11Z) - LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文 参考訳(メタデータ) (2024-10-02T14:57:58Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z) - Voice-assisted Image Labelling for Endoscopic Ultrasound Classification
using Neural Networks [48.732863591145964]
本稿では,臨床医が提示した生音声からのEUS画像にラベルを付けるマルチモーダル畳み込みニューラルネットワークアーキテクチャを提案する。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
論文 参考訳(メタデータ) (2021-10-12T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。