論文の概要: How Good LLMs Are at Answering Bangla Medical Visual Questions? Dataset and Benchmarking
- arxiv url: http://arxiv.org/abs/2605.18111v1
- Date: Mon, 18 May 2026 09:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.223072
- Title: How Good LLMs Are at Answering Bangla Medical Visual Questions? Dataset and Benchmarking
- Title(参考訳): バングラデシュの視覚的疑問に答えるLLMはどれくらい優れているか?データセットとベンチマーク
- Authors: Rafid Ahmed, Intesar Tahmid, Mir Sazzat Hossain, Tasnimul Hossain Tomal, Md Fahim, Md Farhad Alam Bhuiyan,
- Abstract要約: バングラ語は世界中で最も広く話されている言語の一つだが、MedVQAベンチマークは確立されていない。
臨床的に検証された画像-問合せ対からなるデータセットであるBanglaMedVQAを紹介する。
分析の結果,Banglaの性能は著しく低下しており,低リソース言語に固有の課題を反映していることがわかった。
- 参考スコア(独自算出の注目度): 0.45740558095423056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) and Large Vision Language Models (LVLMs) have enabled general-purpose systems to demonstrate promising capabilities in complex reasoning tasks, including those in the medical domain. Medical Visual Question Answering (MedVQA) has particularly benefited from these developments. However, despite Bangla being one of the most widely spoken languages globally, there exists no established MedVQA benchmark for it. To address this gap, we introduce BanglaMedVQA, a dataset comprising clinically validated image-question-answer pairs, along with a comprehensive evaluation of current foundation models on this resource. Consistent with prior findings that report low performance of current models on English MedVQA benchmarks, our analysis reveals that Bangla performance is substantially lower, reflecting the challenges inherent to low-resource languages. Even top-performing models such as Gemini and GPT-4.1 mini fail to accurately answer specialized diagnostic questions, indicating severe limitations in fine-grained medical reasoning. Although certain open-source models, such as Gemma-3, occasionally outperform these models in general categories, they too struggle with clinically complex questions, underscoring the urgent need for top-notch evaluation method.
- Abstract(参考訳): 近年のLLM(Large Language Models)とLVLM(Large Vision Language Models)の進歩により、医療領域のそれを含む複雑な推論タスクにおいて有望な能力を示す汎用システムが実現されている。
MedVQA (Medicical Visual Question Answering) はこれらの開発から特に恩恵を受けている。
しかし、バングラ語は世界中で最も広く話されている言語の一つであるにもかかわらず、MedVQAベンチマークは確立されていない。
このギャップに対処するため,臨床的に検証された画像検索と回答のペアからなるデータセットであるBanglaMedVQAを導入し,現状の基盤モデルの総合的評価を行った。
英語MedVQAベンチマークにおける現行モデルの性能低下を報告した先行報告と一致して,Banglaの性能が著しく低下し,低リソース言語に固有の課題が反映されていることが明らかとなった。
GeminiやGPT-4.1 miniのようなトップパフォーマンスモデルでさえ、専門的な診断問題に正確に答えることができず、きめ細かい医学的推論では厳しい制限が示される。
Gemma-3のような一部のオープンソースモデルは、一般的にこれらのモデルよりも優れているが、臨床上の複雑な問題にも悩まされ、トップノッチ評価手法の緊急性の必要性が浮き彫りになっている。
関連論文リスト
- Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA [0.6015898117103068]
MedVQA (Medicical Visual Question Answering) は、医療画像上の自然言語クエリーを、臨床的な意思決定と患者医療を支援する。
本稿では,汎用的な命令調整型大規模言語モデルと検索拡張生成(RAG)フレームワークを用いたMasonNLPシステムを提案する。
19チーム中3位、51チームが平均41.37%の成績を残した。
論文 参考訳(メタデータ) (2025-10-12T07:03:58Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。
外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。
本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。
次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-06T16:45:07Z) - Do Large Language Models have Shared Weaknesses in Medical Question Answering? [1.25828876338076]
大規模言語モデル(LLM)は、医療ベンチマークで急速に改善されているが、その信頼性の欠如は、安全な現実世界の使用において永続的な課題である。
上位のLLMをベンチマークし、モデル間の一貫性のあるパターンを特定します。
質問が正しく答えるモデル間の類似性の証拠と、人間のテストテイカーとの類似性を見出した。
論文 参考訳(メタデータ) (2023-10-11T06:26:19Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。