Fugu-MT 論文翻訳(概要): VOLMO: Versatile and Open Large Models for Ophthalmology

論文の概要: VOLMO: Versatile and Open Large Models for Ophthalmology

arxiv url: http://arxiv.org/abs/2603.23953v1
Date: Wed, 25 Mar 2026 05:25:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.144322
Title: VOLMO: Versatile and Open Large Models for Ophthalmology
Title（参考訳）: VOLMO:眼科用めまい・開放大モデル
Authors: Zhenyue Qin, Younjoon Chung, Elijah Lee, Wanyue Feng, Xuguang Ai, Serina Applebaum, Minjie Zou, Yang Liu, Pan Xiao, Mac Singer, Amisha Dave, Aidan Gilson, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih-Chung Tham, Ron Adelman, Luciano V. Del Priore, Qingyu Chen,
Abstract要約: 眼科医は、臨床画像、構造化された臨床データ、および疾患の重症度と管理を判定するためのフリーテキストノートを統合する必要がある。近年のマルチモーダル大言語モデル (MLLM) は, 将来性を示すが, 既存の一般医療MLLMは眼科では不十分である。本稿では,眼科固有のMLLMを開発するためのモデルに依存しない,データオープンなフレームワークであるVOLMOを提案する。
参考スコア（独自算出の注目度）: 9.602280403530182
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision impairment affects millions globally, and early detection is critical to preventing irreversible vision loss. Ophthalmology workflows require clinicians to integrate medical images, structured clinical data, and free-text notes to determine disease severity and management, which is time-consuming and burdensome. Recent multimodal large language models (MLLMs) show promise, but existing general and medical MLLMs perform poorly in ophthalmology, and few ophthalmology-specific MLLMs are openly available. We present VOLMO (Versatile and Open Large Models for Ophthalmology), a model-agnostic, data-open framework for developing ophthalmology-specific MLLMs. VOLMO includes three stages: ophthalmology knowledge pretraining on 86,965 image-text pairs from 26,569 articles across 82 journals; domain task fine-tuning on 26,929 annotated instances spanning 12 eye conditions for disease screening and severity classification; and multi-step clinical reasoning on 913 patient case reports for assessment, planning, and follow-up care. Using this framework, we trained a compact 2B-parameter MLLM and compared it with strong baselines, including InternVL-2B, LLaVA-Med-7B, MedGemma-4B, MedGemma-27B, and RETFound. We evaluated these models on image description generation, disease screening and staging classification, and assessment-and-management generation, with additional manual review by two healthcare professionals and external validation on three independent cohorts for age-related macular degeneration and diabetic retinopathy. Across settings, VOLMO-2B consistently outperformed baselines, achieving stronger image description performance, an average F1 of 87.4% across 12 eye conditions, and higher scores in external validation.
Abstract（参考訳）: 視覚障害は世界中の何百万もの人に影響を与え、早期発見は不可逆的な視覚喪失を防ぐために重要である。眼科のワークフローでは、臨床医が医療画像、構造化された臨床データ、および疾患の重症度と管理を決定するためのフリーテキストノートを統合する必要がある。近年のマルチモーダル大言語モデル (MLLM) は有望であるが, 既存の一般医療MLLMは眼科では不十分であり, 眼科に特有なMLLMは少ない。 VOLMO(Versatile and Open Large Models for Ophthalmology)は、眼科固有のMLLMを開発するための、モデルに依存しない、データオープンなフレームワークである。 VOLMOは、82誌にわたる26,569の論文から86,965の画像テキストペアに事前訓練された眼科知識、病気のスクリーニングと重篤な分類のために12の眼疾患にまたがる26,929のドメインタスクの微調整、評価、計画、フォローアップケアのための913の症例報告に関する多段階の臨床推論を含む。このフレームワークを用いて、コンパクトな2BパラメータMLLMをトレーニングし、InternVL-2B、LLaVA-Med-7B、MedGemma-4B、MedGemma-27B、RETFoundといった強力なベースラインと比較した。画像記述, 疾患スクリーニング, ステージング分類, および評価・管理生成に関するこれらのモデルについて, 2人の医療専門家による手作業による検討と, 加齢に伴う黄斑変性と糖尿病網膜症に対する3つの独立したコホートに対する外的検証を行った。設定全体にわたって、VOLMO-2Bは一貫してベースラインを上回り、画像記述性能が向上し、12の目の条件で平均87.4%のF1が平均され、外的検証ではより高いスコアが得られた。

関連論文リスト

Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making [47.976936248969366]
最新のマルチモーダル言語モデル (MLLM) でさえ, 基本的な医療意思決定 (MDM) の課題に苦しむことを示す。私たちの経験的研究は、テキストのみの推論が、視覚のみまたは視覚的テキスト設定よりも一貫して優れていることを示している。これらの知見は、医療におけるマルチモーダル意思決定を改善するための有望な方向性を示している。
論文参考訳（メタデータ） (2025-12-15T03:09:31Z)
LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology [43.092364533480456]
視力低下の眼疾患は、労働力不足によるタイムリーな診断と専門医療へのアクセス制限により、世界的な健康上の重荷となる。本報告では,12の眼球運動条件に共通する多粒性アノテーションと5つの画像モダリティを併用した32,633例の大規模マルチモーダル眼科ベンチマークを報告する。このデータセットは、画像、解剖学的構造、人口統計、自由テキストアノテーションを統合し、解剖学的構造認識、疾患スクリーニング、疾患ステージング、およびバイアス評価のための人口統計予測をサポートする。
論文参考訳（メタデータ） (2025-09-30T00:29:18Z)
TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-29T17:51:26Z)
EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文参考訳（メタデータ） (2025-05-29T16:14:34Z)
EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文参考訳（メタデータ） (2025-04-18T12:09:15Z)
A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images [11.761590928900358]
眼科領域では,光学コヒーレンス・トモグラフィー(OCT)の報告を解析するために,大言語モデル(MLLM)が研究されている。データセットは439基の画像と75基のOCT画像からなる。標準化されたAPIベースのフレームワークを用いて、7つの主流MLLMを評価し、異なる疾患の診断精度に有意なばらつきが認められた。
論文参考訳（メタデータ） (2025-03-10T09:19:55Z)
LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文参考訳（メタデータ） (2024-10-02T14:57:58Z)
Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文参考訳（メタデータ） (2024-07-08T09:08:42Z)
Ophtha-LLaMA2: A Large Language Model for Ophthalmology [31.39653268440651]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きな成功を収めた。本研究は,眼科疾患の診断に適したLLM「Ophtha-LLaMA2」を構築した。推測試験の結果,Ophtha-LLaMA2は細調整データセットが小さい場合でも,眼科診断において有意に良好な成績を示した。
論文参考訳（メタデータ） (2023-12-08T08:43:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。