論文の概要: PediatricsMQA: a Multi-modal Pediatrics Question Answering Benchmark
- arxiv url: http://arxiv.org/abs/2508.16439v2
- Date: Mon, 25 Aug 2025 06:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.877638
- Title: PediatricsMQA: a Multi-modal Pediatrics Question Answering Benchmark
- Title(参考訳): PediatricsMQA: ベンチマークに回答するマルチモーダルな小児質問
- Authors: Adil Bahaj, Mohamed Chetouani, Mounir Ghogho,
- Abstract要約: 大規模言語モデル (LLM) と視覚拡張LDM (VLM) は高度な医療情報学、診断、意思決定支援を備えている。
これらのモデルは、特に年齢バイアスという体系的なバイアスを示し、その信頼性と公平さを損なう。
このバイアスは、小児医学研究が資金や表現の少ない医学研究において広範な不均衡を反映している。
- 参考スコア(独自算出の注目度): 12.647664876151515
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) and vision-augmented LLMs (VLMs) have significantly advanced medical informatics, diagnostics, and decision support. However, these models exhibit systematic biases, particularly age bias, compromising their reliability and equity. This is evident in their poorer performance on pediatric-focused text and visual question-answering tasks. This bias reflects a broader imbalance in medical research, where pediatric studies receive less funding and representation despite the significant disease burden in children. To address these issues, a new comprehensive multi-modal pediatric question-answering benchmark, PediatricsMQA, has been introduced. It consists of 3,417 text-based multiple-choice questions (MCQs) covering 131 pediatric topics across seven developmental stages (prenatal to adolescent) and 2,067 vision-based MCQs using 634 pediatric images from 67 imaging modalities and 256 anatomical regions. The dataset was developed using a hybrid manual-automatic pipeline, incorporating peer-reviewed pediatric literature, validated question banks, existing benchmarks, and existing QA resources. Evaluating state-of-the-art open models, we find dramatic performance drops in younger cohorts, highlighting the need for age-aware methods to ensure equitable AI support in pediatric care.
- Abstract(参考訳): 大型言語モデル (LLMs) と視覚拡張LDM (VLMs) は、医療情報学、診断学、意思決定支援に大きく進歩している。
しかしながら、これらのモデルは、特に年齢バイアスという体系的なバイアスを示し、信頼性と株式を妥協する。
これは、小児に焦点をあてたテキストと視覚的質問応答タスクにおいて、より貧弱なパフォーマンスで明らかである。
このバイアスは、小児医学研究における広範な不均衡を反映している。
これらの問題に対処するため、新しい総合的なマルチモーダルな質問応答ベンチマークであるPediatricsMQAが導入された。
3,417のテキストベースの多重選択質問 (MCQ) からなり、7つの発達段階(出生時から青年期)で131の小児トピックをカバーし、2,067の視覚ベースのMCQを67の画像モダリティと256の解剖学的領域から634の小児画像を用いた。
このデータセットは、ピアレビューされた小児文学、検証された質問バンク、既存のベンチマーク、既存のQAリソースを組み込んだ、ハイブリッドな手動自動パイプラインを使用して開発された。
最先端のオープンモデルを評価することで、若いコホートには劇的なパフォーマンス低下が見られます。
関連論文リスト
- How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study [16.84832179579428]
VLM(Vision-Language Models)は、Webスケールのコーパスを訓練し、自然画像のタスクに優れ、医療に利用されつつある。
本稿では,8つのベンチマークを用いて,オープンソース汎用および医療専門のVLMの総合評価を行う。
まず、大規模な汎用モデルは、いくつかのベンチマークで、すでに医学固有のモデルと一致しているか、あるいは超えている。
第二に、推論のパフォーマンスは理解よりも一貫して低く、安全な意思決定支援にとって重要な障壁を強調します。
論文 参考訳(メタデータ) (2025-07-15T11:12:39Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。