論文の概要: MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.09262v1
- Date: Wed, 14 Feb 2024 15:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:42:25.490482
- Title: MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical
Vision-Language Models
- Title(参考訳): MultiMedEval:医療ビジョンランゲージモデル評価のためのベンチマークとツールキット
- Authors: Corentin Royer, Bjoern Menze and Anjany Sekuboyina
- Abstract要約: MultiMedEvalは、大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットである。
6つのマルチモーダルタスクでモデルのパフォーマンスを総合的に評価し、23以上のデータセットを実行し、11以上の医療ドメインにまたがる。
簡単なインターフェースとセットアッププロセスを備えたPythonツールキットをオープンソースとして公開し、わずか数行のコードで任意のVLMの評価を可能にしました。
- 参考スコア(独自算出の注目度): 1.3535643703577176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce MultiMedEval, an open-source toolkit for fair and reproducible
evaluation of large, medical vision-language models (VLM). MultiMedEval
comprehensively assesses the models' performance on a broad array of six
multi-modal tasks, conducted over 23 datasets, and spanning over 11 medical
domains. The chosen tasks and performance metrics are based on their widespread
adoption in the community and their diversity, ensuring a thorough evaluation
of the model's overall generalizability. We open-source a Python toolkit
(github.com/corentin-ryr/MultiMedEval) with a simple interface and setup
process, enabling the evaluation of any VLM in just a few lines of code. Our
goal is to simplify the intricate landscape of VLM evaluation, thus promoting
fair and uniform benchmarking of future models.
- Abstract(参考訳): 大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットであるMultiMedEvalを紹介する。
MultiMedEvalは、23のデータセットで実施され、11の医療ドメインにまたがる6つのマルチモーダルタスクで、モデルのパフォーマンスを包括的に評価する。
選択されたタスクとパフォーマンスメトリクスは、コミュニティにおける広範な採用とその多様性に基づいており、モデルの全体的な一般化可能性の徹底的な評価が保証されている。
我々は,単純なインターフェースとセットアッププロセスを備えたPythonツールキット(github.com/corentin-ryr/MultiMedEval)をオープンソースとして公開した。
我々の目標は、VLM評価の複雑な環境を単純化し、将来のモデルの公平かつ均一なベンチマークを促進することである。
関連論文リスト
- WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation [4.149844666297669]
マルチモーダル/ビジョン言語モデル(VLM)は、世界中の医療分野でますます普及している。
既存のデータセットはテキストのみであり、言語や国の限られたサブセットで利用可能である。
WorldMedQA-Vには、4カ国の医療画像と組み合わせて568のラベル付き多重選択QAが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:31:24Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks [11.094602017349928]
本研究では,MLLMの性能評価を行うためのベンチマークとしてFMBenchを提案する。
一般医療を含む8つの最先端オープンソースMLLMの性能と妥当性を徹底的に評価した。
すべてのデータとコードは、受け入れられると解放される。
論文 参考訳(メタデータ) (2024-10-01T21:38:15Z) - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。