論文の概要: MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.09262v1
- Date: Wed, 14 Feb 2024 15:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:42:25.490482
- Title: MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical
Vision-Language Models
- Title(参考訳): MultiMedEval:医療ビジョンランゲージモデル評価のためのベンチマークとツールキット
- Authors: Corentin Royer, Bjoern Menze and Anjany Sekuboyina
- Abstract要約: MultiMedEvalは、大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットである。
6つのマルチモーダルタスクでモデルのパフォーマンスを総合的に評価し、23以上のデータセットを実行し、11以上の医療ドメインにまたがる。
簡単なインターフェースとセットアッププロセスを備えたPythonツールキットをオープンソースとして公開し、わずか数行のコードで任意のVLMの評価を可能にしました。
- 参考スコア(独自算出の注目度): 1.3535643703577176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce MultiMedEval, an open-source toolkit for fair and reproducible
evaluation of large, medical vision-language models (VLM). MultiMedEval
comprehensively assesses the models' performance on a broad array of six
multi-modal tasks, conducted over 23 datasets, and spanning over 11 medical
domains. The chosen tasks and performance metrics are based on their widespread
adoption in the community and their diversity, ensuring a thorough evaluation
of the model's overall generalizability. We open-source a Python toolkit
(github.com/corentin-ryr/MultiMedEval) with a simple interface and setup
process, enabling the evaluation of any VLM in just a few lines of code. Our
goal is to simplify the intricate landscape of VLM evaluation, thus promoting
fair and uniform benchmarking of future models.
- Abstract(参考訳): 大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットであるMultiMedEvalを紹介する。
MultiMedEvalは、23のデータセットで実施され、11の医療ドメインにまたがる6つのマルチモーダルタスクで、モデルのパフォーマンスを包括的に評価する。
選択されたタスクとパフォーマンスメトリクスは、コミュニティにおける広範な採用とその多様性に基づいており、モデルの全体的な一般化可能性の徹底的な評価が保証されている。
我々は,単純なインターフェースとセットアッププロセスを備えたPythonツールキット(github.com/corentin-ryr/MultiMedEval)をオープンソースとして公開した。
我々の目標は、VLM評価の複雑な環境を単純化し、将来のモデルの公平かつ均一なベンチマークを促進することである。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation [4.149844666297669]
マルチモーダル/ビジョン言語モデル(VLM)は、世界中の医療分野でますます普及している。
既存のデータセットはテキストのみであり、言語や国の限られたサブセットで利用可能である。
WorldMedQA-Vには、4カ国の医療画像と組み合わせて568のラベル付き多重選択QAが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:31:24Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks [11.094602017349928]
本研究では,MLLMの性能評価を行うためのベンチマークとしてFMBenchを提案する。
一般医療を含む8つの最先端オープンソースMLLMの性能と妥当性を徹底的に評価した。
すべてのデータとコードは、受け入れられると解放される。
論文 参考訳(メタデータ) (2024-10-01T21:38:15Z) - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - MvCo-DoT:Multi-View Contrastive Domain Transfer Network for Medical
Report Generation [42.804058630251305]
本稿では,MvCo-DoTと呼ばれるマルチビュー医療レポート生成モデルを提案する。
MvCo-DoTはまず,多視点入力の整合性を利用する深層強化学習モデルを支援するために,多視点コントラスト学習(MvCo)戦略を提案する。
IU X-Rayの公開データセットに対する大規模な実験により、MvCo-DoTはすべての指標においてSOTAの医療レポート生成ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-04-15T03:42:26Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。