論文の概要: Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat
- arxiv url: http://arxiv.org/abs/2505.19624v1
- Date: Mon, 26 May 2025 07:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.25142
- Title: Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat
- Title(参考訳): OphthalWeChatを用いた眼科視覚質問応答のための大規模マルチモーダルモデルのベンチマーク
- Authors: Pusheng Xu, Xia Gong, Xiaolan Chen, Weiyi Zhang, Jiancheng Yang, Bingjie Yan, Meng Yuan, Yalin Zheng, Mingguang He, Danli Shi,
- Abstract要約: WeChatから眼科画像投稿と関連キャプションを収集した。
中国語と英語のバイリンガルペアは GPT-4o-mini を用いて生成した。
このベンチマークは、GPT-4o、Gemini 2.0 Flash、Qwen2.5-VL-72B-Instructの3つのVLMの性能を評価するために使用された。
- 参考スコア(独自算出の注目度): 10.495595273348021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: To develop a bilingual multimodal visual question answering (VQA) benchmark for evaluating VLMs in ophthalmology. Methods: Ophthalmic image posts and associated captions published between January 1, 2016, and December 31, 2024, were collected from WeChat Official Accounts. Based on these captions, bilingual question-answer (QA) pairs in Chinese and English were generated using GPT-4o-mini. QA pairs were categorized into six subsets by question type and language: binary (Binary_CN, Binary_EN), single-choice (Single-choice_CN, Single-choice_EN), and open-ended (Open-ended_CN, Open-ended_EN). The benchmark was used to evaluate the performance of three VLMs: GPT-4o, Gemini 2.0 Flash, and Qwen2.5-VL-72B-Instruct. Results: The final OphthalWeChat dataset included 3,469 images and 30,120 QA pairs across 9 ophthalmic subspecialties, 548 conditions, 29 imaging modalities, and 68 modality combinations. Gemini 2.0 Flash achieved the highest overall accuracy (0.548), outperforming GPT-4o (0.522, P < 0.001) and Qwen2.5-VL-72B-Instruct (0.514, P < 0.001). It also led in both Chinese (0.546) and English subsets (0.550). Subset-specific performance showed Gemini 2.0 Flash excelled in Binary_CN (0.687), Single-choice_CN (0.666), and Single-choice_EN (0.646), while GPT-4o ranked highest in Binary_EN (0.717), Open-ended_CN (BLEU-1: 0.301; BERTScore: 0.382), and Open-ended_EN (BLEU-1: 0.183; BERTScore: 0.240). Conclusions: This study presents the first bilingual VQA benchmark for ophthalmology, distinguished by its real-world context and inclusion of multiple examinations per patient. The dataset reflects authentic clinical decision-making scenarios and enables quantitative evaluation of VLMs, supporting the development of accurate, specialized, and trustworthy AI systems for eye care.
- Abstract(参考訳): 目的: 眼科におけるVLMを評価するために, バイリンガル・マルチモーダル視覚質問応答(VQA)ベンチマークを開発すること。
方法:2016年1月1日から2024年12月31日にかけて、WeChatの公式アカウントから眼科画像投稿と関連キャプションが収集された。
これらのキャプションに基づき、中国語と英語のバイリンガル質問応答(QA)ペアをGPT-4o-miniを用いて生成した。
QAペアは質問タイプと言語によって6つのサブセットに分類された。バイナリ(Binary_CN, Binary_EN)、シングルチョイス(Single-choice_CN, Single-choice_EN)、オープンエンド(Open-ended_CN, Open-ended_EN)。
このベンチマークは、GPT-4o、Gemini 2.0 Flash、Qwen2.5-VL-72B-Instructの3つのVLMの性能を評価するために使用された。
結果: 最終的なOphthalWeChatデータセットには,9つの眼科領域にわたる3,469の画像と30,120のQAペア,548の条件,29の画像モダリティ,68のモダリティの組み合わせが含まれていた。
Gemini 2.0 Flash は GPT-4o (0.522, P < 0.001) と Qwen2.5-VL-72B-Instruct (0.514, P < 0.001) を上回った。
また、中国語(0.546)と英語(0.550)の両方のサブセットを導いた。
サブセット固有のパフォーマンスでは、Gemini 2.0 FlashはBinary_CN (0.687), Single-choice_CN (0.666), Single-choice_EN (0.646), GPT-4oはBinary_EN (0.717), Open-ended_CN (BLEU-1: 0.301; BERTScore: 0.382), Open-ended_EN (BLEU-1: 0.183; BERTScore: 0.240)で最高である。
結論: 本研究は, 眼科における最初のバイリンガルVQAベンチマークである。
このデータセットは、真の臨床的意思決定シナリオを反映し、VLMの定量的評価を可能にし、アイケアのための正確で専門的で信頼できるAIシステムの開発を支援する。
関連論文リスト
- LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - ThyroidEffi 1.0: A Cost-Effective System for High-Performance Multi-Class Thyroid Carcinoma Classification [0.0]
甲状腺FNAB画像分類のための深層学習システムを開発した。
Benign, Indeterminate/Suspicious, and Malignantの3つの主要なカテゴリは、生後治療を直接指導するものだ。
システムは1000ケースを30秒で処理し、広くアクセス可能なハードウェアの実現可能性を示した。
論文 参考訳(メタデータ) (2025-04-19T02:13:07Z) - Benchmarking Next-Generation Reasoning-Focused Large Language Models in Ophthalmology: A Head-to-Head Evaluation on 5,888 Items [5.087573829521397]
本研究は, 新たに開発した4つのLLMの精度と推論能力を総合的に評価し, 比較した。
O1 と DeepSeek-R1 は最高精度を達成し、O1 は Macro-F1 (0.900) もリードした。
o3-mini in ROUGE-L (0.151), o1 in METEOR (0.232), DeepSeek-R1 and o3-mini connected for BERTScore (0.673), DeepSeek-R1 (-4.105), Gemini 2.0 Flash-Thinking (-4.127) performed in BART
論文 参考訳(メタデータ) (2025-04-15T13:42:34Z) - Vision Language Models versus Machine Learning Models Performance on Polyp Detection and Classification in Colonoscopy Images [0.06782770175649853]
本研究は、確立された畳み込みニューラルネットワーク(CNN)に対する視覚言語モデル(VLM)の総合的な性能評価を提供する。
428例の大腸内視鏡像2,258例について検討した。
論文 参考訳(メタデータ) (2025-03-27T09:41:35Z) - NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples [79.82029431745612]
視覚自動モデル(VLM)は、人間が容易に答えられるような自然なイメージや疑問に苦戦している。
我々は,1万個の人間検証VQAサンプルを用いて,VLMを確実に評価するための新しいベンチマークであるNaturalBenchを提案する。
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
論文 参考訳(メタデータ) (2024-10-18T17:58:21Z) - Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。
LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。
GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation [56.49084589053732]
VLM(Vision-Language Models)は、様々なアプリケーションで成功を収めてきたが、関連性判断を支援する可能性はまだ不明である。
本稿では,CLIP,LLaVA,GPT-4Vを含むVLMの関連性評価機能について,ゼロショット方式でマルチメディアコンテンツ作成に適した大規模テキスト分割ホック検索タスクで評価する。
論文 参考訳(メタデータ) (2024-08-02T16:15:25Z) - MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。
MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文 参考訳(メタデータ) (2024-08-01T17:59:54Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。