論文の概要: FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks
- arxiv url: http://arxiv.org/abs/2410.01089v1
- Date: Tue, 1 Oct 2024 21:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:20:41.430799
- Title: FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks
- Title(参考訳): FMBench:医療タスクにおけるマルチモーダル大言語モデルのベンチマークフェアネス
- Authors: Peiran Wu, Che Liu, Canyu Chen, Jun Li, Cosmin I. Bercea, Rossella Arcucci,
- Abstract要約: 本研究では,MLLMの性能評価を行うためのベンチマークとしてFMBenchを提案する。
一般医療を含む8つの最先端オープンソースMLLMの性能と妥当性を徹底的に評価した。
すべてのデータとコードは、受け入れられると解放される。
- 参考スコア(独自算出の注目度): 11.094602017349928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in Multimodal Large Language Models (MLLMs) have significantly improved medical task performance, such as Visual Question Answering (VQA) and Report Generation (RG). However, the fairness of these models across diverse demographic groups remains underexplored, despite its importance in healthcare. This oversight is partly due to the lack of demographic diversity in existing medical multimodal datasets, which complicates the evaluation of fairness. In response, we propose FMBench, the first benchmark designed to evaluate the fairness of MLLMs performance across diverse demographic attributes. FMBench has the following key features: 1: It includes four demographic attributes: race, ethnicity, language, and gender, across two tasks, VQA and RG, under zero-shot settings. 2: Our VQA task is free-form, enhancing real-world applicability and mitigating the biases associated with predefined choices. 3: We utilize both lexical metrics and LLM-based metrics, aligned with clinical evaluations, to assess models not only for linguistic accuracy but also from a clinical perspective. Furthermore, we introduce a new metric, Fairness-Aware Performance (FAP), to evaluate how fairly MLLMs perform across various demographic attributes. We thoroughly evaluate the performance and fairness of eight state-of-the-art open-source MLLMs, including both general and medical MLLMs, ranging from 7B to 26B parameters on the proposed benchmark. We aim for FMBench to assist the research community in refining model evaluation and driving future advancements in the field. All data and code will be released upon acceptance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩は、VQA(Visual Question Answering)やRG(Report Generation)といった医療タスクのパフォーマンスを著しく改善した。
しかし、これらのモデルが多様な人口集団にまたがる公平さは、医療において重要であるにもかかわらず、まだ解明されていない。
この監視は、既存の医療マルチモーダルデータセットの多様性の欠如によるものであり、フェアネスの評価を複雑にしている。
そこで本研究では,MLLMの性能評価を行うためのベンチマークであるFMBenchを提案する。
FMBenchには以下の重要な特徴がある。 1: ゼロショット設定の下で、VQAとRGという2つのタスクにまたがる人種、民族、言語、性別の4つの属性を含む。
2: 私たちのVQAタスクはフリーフォームで、現実の応用性を高め、事前定義された選択に関連するバイアスを軽減する。
3: 言語的精度だけでなく, 臨床の観点からも, 語彙的指標とLLMに基づく指標の両方を用いて, モデルの評価を行う。
さらに,FAP(Fairness-Aware Performance)という新たな指標を導入し,MLLMが様々な属性でどの程度高い性能を示すかを評価する。
提案したベンチマークの7Bパラメータから26Bパラメータまでを含む,8つの最先端オープンソースMLLMの性能と妥当性を徹底的に評価した。
我々は,FMBenchが研究コミュニティのモデル評価の洗練と今後の発展を促進することを目指しています。
すべてのデータとコードは、受け入れられると解放される。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - FairMedFM: Fairness Benchmarking for Medical Imaging Foundation Models [37.803490266325]
医療画像における基礎モデル(FM)研究のためのフェアネスベンチマークであるFairMedFMを紹介する。
FairMedFMは17の一般的な医療画像データセットと統合されており、様々なモダリティ、次元、機密属性を含んでいる。
ゼロショット学習、線形探索、パラメータ効率のよい微調整、様々な下流タスク、分類とセグメンテーションなど、広く使われている20のFMを探索する。
論文 参考訳(メタデータ) (2024-07-01T05:47:58Z) - DrBenchmark: A Large Language Understanding Evaluation Benchmark for
French Biomedical Domain [8.246368441549967]
我々はDrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを公開している。
名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。
一般およびバイオメディカル特化データに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。
論文 参考訳(メタデータ) (2024-02-20T23:54:02Z) - MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical
Vision-Language Models [1.3535643703577176]
MultiMedEvalは、大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットである。
6つのマルチモーダルタスクでモデルのパフォーマンスを総合的に評価し、23以上のデータセットを実行し、11以上の医療ドメインにまたがる。
簡単なインターフェースとセットアッププロセスを備えたPythonツールキットをオープンソースとして公開し、わずか数行のコードで任意のVLMの評価を可能にしました。
論文 参考訳(メタデータ) (2024-02-14T15:49:08Z) - PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging [8.043625583479598]
MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表す。
近年,MLLMを医療用マルチモーダル問題に対する普遍的解決法として応用する研究が進められている。
本稿では,Med-VQA (Med-VQA) タスクとMRG (Med-VQA) タスクに基づいて,MLLMを微調整するためのパラメータ効率のよいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T13:22:12Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。