Fugu-MT 論文翻訳(概要): MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical Vision-Language Models

論文の概要: MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.09262v2
Date: Fri, 16 Feb 2024 16:36:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 12:38:20.296520
Title: MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical Vision-Language Models
Title（参考訳）: MultiMedEval:医療ビジョンランゲージモデル評価のためのベンチマークとツールキット
Authors: Corentin Royer, Bjoern Menze and Anjany Sekuboyina
Abstract要約: MultiMedEvalは、大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットである。 6つのマルチモーダルタスクでモデルのパフォーマンスを総合的に評価し、23以上のデータセットを実行し、11以上の医療ドメインにまたがる。簡単なインターフェースとセットアッププロセスを備えたPythonツールキットをオープンソースとして公開し、わずか数行のコードで任意のVLMの評価を可能にしました。
参考スコア（独自算出の注目度）: 1.3535643703577176
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We introduce MultiMedEval, an open-source toolkit for fair and reproducible evaluation of large, medical vision-language models (VLM). MultiMedEval comprehensively assesses the models' performance on a broad array of six multi-modal tasks, conducted over 23 datasets, and spanning over 11 medical domains. The chosen tasks and performance metrics are based on their widespread adoption in the community and their diversity, ensuring a thorough evaluation of the model's overall generalizability. We open-source a Python toolkit (github.com/corentin-ryr/MultiMedEval) with a simple interface and setup process, enabling the evaluation of any VLM in just a few lines of code. Our goal is to simplify the intricate landscape of VLM evaluation, thus promoting fair and uniform benchmarking of future models.
Abstract（参考訳）: 大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットであるMultiMedEvalを紹介する。 MultiMedEvalは、23のデータセットで実施され、11の医療ドメインにまたがる6つのマルチモーダルタスクで、モデルのパフォーマンスを包括的に評価する。選択されたタスクとパフォーマンスメトリクスは、コミュニティにおける広範な採用とその多様性に基づいており、モデルの全体的な一般化可能性の徹底的な評価が保証されている。我々は,単純なインターフェースとセットアッププロセスを備えたPythonツールキット(github.com/corentin-ryr/MultiMedEval)をオープンソースとして公開した。我々の目標は、VLM評価の複雑な環境を単純化し、将来のモデルの公平かつ均一なベンチマークを促進することである。

関連論文リスト

SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding [8.20483591990742]
本稿では,対話型マルチモーダル大言語モデルの開発と評価のための統一ベンチマークであるSurgMLLMBenchを紹介する。ピクセルレベルの機器セグメンテーションマスクと、腹腔鏡、ロボット支援、マイクロサージカルドメインにまたがる構造化VQAアノテーションを統合している。ドメイン間で一貫したパフォーマンスを実現し、目に見えないデータセットに効果的に一般化する。
論文参考訳（メタデータ） (2025-11-26T12:44:51Z)
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation [4.149844666297669]
マルチモーダル/ビジョン言語モデル(VLM)は、世界中の医療分野でますます普及している。既存のデータセットはテキストのみであり、言語や国の限られたサブセットで利用可能である。 WorldMedQA-Vには、4カ国の医療画像と組み合わせて568のラベル付き多重選択QAが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:31:24Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks [11.094602017349928]
本研究では,MLLMの性能評価を行うためのベンチマークとしてFMBenchを提案する。一般医療を含む8つの最先端オープンソースMLLMの性能と妥当性を徹底的に評価した。すべてのデータとコードは、受け入れられると解放される。
論文参考訳（メタデータ） (2024-10-01T21:38:15Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。 VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文参考訳（メタデータ） (2024-07-16T13:06:15Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
MvCo-DoT:Multi-View Contrastive Domain Transfer Network for Medical Report Generation [42.804058630251305]
本稿では,MvCo-DoTと呼ばれるマルチビュー医療レポート生成モデルを提案する。 MvCo-DoTはまず,多視点入力の整合性を利用する深層強化学習モデルを支援するために,多視点コントラスト学習(MvCo)戦略を提案する。 IU X-Rayの公開データセットに対する大規模な実験により、MvCo-DoTはすべての指標においてSOTAの医療レポート生成ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-04-15T03:42:26Z)
MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文参考訳（メタデータ） (2020-12-16T19:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。