論文の概要: U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding
- arxiv url: http://arxiv.org/abs/2505.17779v2
- Date: Fri, 30 May 2025 17:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:35.228523
- Title: U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding
- Title(参考訳): U2-BENCH:超音波理解のための大規模視覚言語モデルのベンチマーク
- Authors: Anjie Le, Henan Liu, Yue Wang, Zhenyu Liu, Rongkun Zhu, Taohan Weng, Jinze Yu, Boyang Wang, Yalun Wu, Kaiwen Yan, Quanlin Sun, Meirui Jiang, Jialun Pei, Siya Liu, Haoyun Zheng, Zhoujun Li, Alison Noble, Jacques Souquet, Xiaoqing Guo, Manxi Lin, Hongcheng Guo,
- Abstract要約: U2-BENCHは,分類,検出,回帰,テキスト生成タスクにおける超音波理解における大規模視覚言語モデル(LVLM)の評価を行うための,最初の総合ベンチマークである。
U2-BENCHは15の解剖学的領域にまたがる7,241の症例を集計し、診断、ビュー認識、病変の局在、臨床値の推定、報告生成など、50の超音波応用シナリオで8つの臨床的にインスパイアされたタスクを定義している。
画像レベルの分類では高い性能を示したが,空間推論や臨床言語生成の難しさが指摘された。
- 参考スコア(独自算出の注目度): 25.81008688779866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ultrasound is a widely-used imaging modality critical to global healthcare, yet its interpretation remains challenging due to its varying image quality on operators, noises, and anatomical structures. Although large vision-language models (LVLMs) have demonstrated impressive multimodal capabilities across natural and medical domains, their performance on ultrasound remains largely unexplored. We introduce U2-BENCH, the first comprehensive benchmark to evaluate LVLMs on ultrasound understanding across classification, detection, regression, and text generation tasks. U2-BENCH aggregates 7,241 cases spanning 15 anatomical regions and defines 8 clinically inspired tasks, such as diagnosis, view recognition, lesion localization, clinical value estimation, and report generation, across 50 ultrasound application scenarios. We evaluate 20 state-of-the-art LVLMs, both open- and closed-source, general-purpose and medical-specific. Our results reveal strong performance on image-level classification, but persistent challenges in spatial reasoning and clinical language generation. U2-BENCH establishes a rigorous and unified testbed to assess and accelerate LVLM research in the uniquely multimodal domain of medical ultrasound imaging.
- Abstract(参考訳): 超音波は、グローバル医療にとって重要な画像モダリティとして広く使われているが、その解釈は、オペレーター、ノイズ、解剖学的構造に様々な画質があるため、依然として困難である。
大規模視覚言語モデル (LVLM) は、自然領域と医療領域にまたがる印象的なマルチモーダル能力を示しているが、超音波におけるその性能はほとんど解明されていない。
U2-BENCHは,分類,検出,回帰,テキスト生成タスクにおける超音波理解のLVLMを評価するための,最初の総合的なベンチマークである。
U2-BENCHは15の解剖学的領域にまたがる7,241の症例を集計し、診断、ビュー認識、病変の局在、臨床値の推定、報告生成など、50の超音波応用シナリオで8つの臨床的にインスパイアされたタスクを定義している。
オープンソース,クローズドソース,汎用,医療に特化した20のLVLMを評価した。
画像レベルの分類では高い性能を示したが,空間推論や臨床言語生成の難しさが指摘された。
U2-BENCHは、医用超音波イメージングのユニークなマルチモーダル領域におけるLVLMの研究を評価し加速するために、厳密で統一されたテストベッドを確立する。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - ACM Multimedia Grand Challenge on ENT Endoscopy Analysis [9.343316855950263]
本稿では,細粒度の解剖学的分類と画像間画像検索,およびバイリンガル監視下でのテキスト間画像検索を統合したENTRepを紹介する。
このデータセットは、解剖学的領域と正常または異常な状態にラベル付けされた専門家注釈付き画像と、二重言語記述を伴う。
論文 参考訳(メタデータ) (2025-08-06T18:22:23Z) - ERDES: A Benchmark Video Dataset for Retinal Detachment and Macular Status Classification in Ocular Ultrasound [0.10470286407954035]
ERDES(Eye Retinal Detachment UltraSound)は,網膜剥離の有無をラベル付けした最初の眼超音波クリップのオープンアクセスデータセットである。
このデータセットは、網膜剥離を検出する機械学習モデルの開発と評価を容易にすることを目的としている。
論文 参考訳(メタデータ) (2025-08-05T21:55:54Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [37.59267835101216]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - How Good is my Histopathology Vision-Language Foundation Model? A Holistic Benchmark [21.47220651857942]
組織学的視覚言語基礎モデル(VLM)は、下流の様々なタスクにまたがる性能と一般化性の向上により人気を博している。
既存の病理組織学のベンチマークのほとんどは、患者のデータプライバシーによる部分的な可用性だけでなく、臨床、臓器、取得機器の多様性の観点からも、一過性のものであるか制限されている。
HistoVLは、クラス名と多様な病理学的記述を組み込んだ、最大11種類の取得ツールとキャプションを用いて取得した画像からなる、完全にオープンソースな総合ベンチマークである。
論文 参考訳(メタデータ) (2025-03-17T09:45:22Z) - Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning [44.99833362998488]
医用画像解析のための階層的コントラストアライメント(HiCA)を用いた適応型視覚言語ファインタニングを提案する。
HiCAは、ドメイン固有の事前学習と階層的コントラスト学習を組み合わせて、視覚的およびテキスト的表現を複数のレベルで整列させる。
我々はChest X-rayとBreast Ultrasoundという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-01-16T05:01:30Z) - Privacy-Preserving Federated Foundation Model for Generalist Ultrasound Artificial Intelligence [83.02106623401885]
プライバシー保護型超音波基礎モデルであるUltraFedFMを提案する。
UltraFedFMは、9か国の16の分散医療機関にわたる連合学習を用いて、協調的に事前訓練されている。
疾患診断には0.927のレシーバ動作特性曲線、病変セグメント化には0.878のサイス類似係数を平均的に達成する。
論文 参考訳(メタデータ) (2024-11-25T13:40:11Z) - LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文 参考訳(メタデータ) (2024-10-02T14:57:58Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z) - Voice-assisted Image Labelling for Endoscopic Ultrasound Classification
using Neural Networks [48.732863591145964]
本稿では,臨床医が提示した生音声からのEUS画像にラベルを付けるマルチモーダル畳み込みニューラルネットワークアーキテクチャを提案する。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
論文 参考訳(メタデータ) (2021-10-12T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。