論文の概要: EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
- arxiv url: http://arxiv.org/abs/2509.14977v1
- Date: Thu, 18 Sep 2025 14:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.255438
- Title: EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence
- Title(参考訳): EchoVLM:Universal Ultrasound Intelligenceのためのダイナミック・ミックス・オブ・エクササイズビジョン・ランゲージモデル
- Authors: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang,
- Abstract要約: 本稿では,超音波医療画像に特化して設計された視覚言語モデルであるEchoVLMを提案する。
このモデルは、7つの解剖学的領域にまたがるデータに基づいてトレーニングされたMixture of Experts (MoE)アーキテクチャを採用している。
EchoVLMは、それぞれBLEU-1スコアとROUGE-1スコアで10.15点と4.77点を大きく改善した。
- 参考スコア(独自算出の注目度): 9.731550105507457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultrasound imaging has become the preferred imaging modality for early cancer screening due to its advantages of non-ionizing radiation, low cost, and real-time imaging capabilities. However, conventional ultrasound diagnosis heavily relies on physician expertise, presenting challenges of high subjectivity and low diagnostic efficiency. Vision-language models (VLMs) offer promising solutions for this issue, but existing general-purpose models demonstrate limited knowledge in ultrasound medical tasks, with poor generalization in multi-organ lesion recognition and low efficiency across multi-task diagnostics. To address these limitations, we propose EchoVLM, a vision-language model specifically designed for ultrasound medical imaging. The model employs a Mixture of Experts (MoE) architecture trained on data spanning seven anatomical regions. This design enables the model to perform multiple tasks, including ultrasound report generation, diagnosis and visual question-answering (VQA). The experimental results demonstrated that EchoVLM achieved significant improvements of 10.15 and 4.77 points in BLEU-1 scores and ROUGE-1 scores respectively compared to Qwen2-VL on the ultrasound report generation task. These findings suggest that EchoVLM has substantial potential to enhance diagnostic accuracy in ultrasound imaging, thereby providing a viable technical solution for future clinical applications. Source code and model weights are available at https://github.com/Asunatan/EchoVLM.
- Abstract(参考訳): 超音波イメージングは、非電離放射線、低コスト、リアルタイムイメージング能力の利点から、早期がん検診において好まれる画像モダリティとなっている。
しかし、従来の超音波診断は医師の専門知識に大きく依存しており、高い主観性と診断効率の低い課題が提示されている。
視覚言語モデル(VLM)は、この問題に対して有望な解決策を提供するが、既存の汎用モデルは、多臓器病変の認識における一般化の欠如やマルチタスク診断における低効率といった、超音波医療における限られた知識を示している。
これらの制約に対処するため,超音波医療画像に特化して設計された視覚言語モデルであるEchoVLMを提案する。
このモデルは、7つの解剖学的領域にまたがるデータに基づいてトレーニングされたMixture of Experts (MoE)アーキテクチャを採用している。
この設計により、超音波レポート生成、診断、視覚質問応答(VQA)など、複数のタスクを実行できる。
実験の結果, 超音波レポート生成タスクにおけるQwen2-VLと比較して, BLEU-1スコアでは10.15点, ROUGE-1スコアでは4.77点, それぞれ有意な改善が得られた。
これらの結果から,EchoVLMは超音波画像診断における診断精度を高める可能性が示唆された。
ソースコードとモデルの重み付けはhttps://github.com/Asunatan/EchoVLMで確認できる。
関連論文リスト
- A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding [25.81008688779866]
U2-BENCHは,分類,検出,回帰,テキスト生成タスクにおける超音波理解における大規模視覚言語モデル(LVLM)の評価を行うための,最初の総合ベンチマークである。
U2-BENCHは15の解剖学的領域にまたがる7,241の症例を集計し、診断、ビュー認識、病変の局在、臨床値の推定、報告生成など、50の超音波応用シナリオで8つの臨床的にインスパイアされたタスクを定義している。
画像レベルの分類では高い性能を示したが,空間推論や臨床言語生成の難しさが指摘された。
論文 参考訳(メタデータ) (2025-05-23T11:48:48Z) - Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
医学的異常を明らかにするための新しいUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
UMed-LVLMは既存のMed-LVLMよりも医療異常の同定と理解に優れていた。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - Privacy-Preserving Federated Foundation Model for Generalist Ultrasound Artificial Intelligence [83.02106623401885]
プライバシー保護型超音波基礎モデルであるUltraFedFMを提案する。
UltraFedFMは、9か国の16の分散医療機関にわたる連合学習を用いて、協調的に事前訓練されている。
疾患診断には0.927のレシーバ動作特性曲線、病変セグメント化には0.878のサイス類似係数を平均的に達成する。
論文 参考訳(メタデータ) (2024-11-25T13:40:11Z) - Generative Adversarial Networks in Ultrasound Imaging: Extending Field of View Beyond Conventional Limits [1.6588671405657123]
TTE超音波イメージングは、特に視野(FoV)と解像度のトレードオフなど、固有の限界に直面している。
本稿では,条件付きジェネレーティブ・アドバイザリ・ネットワーク(cGAN)の新たな応用について紹介する。
提案したcGANアーキテクチャーはエコーGANと呼ばれ、アウトペイントにより現実的な解剖学的構造を生成する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T16:26:30Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。