Fugu-MT 論文翻訳(概要): PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering

論文の概要: PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering

arxiv url: http://arxiv.org/abs/2401.02797v1
Date: Fri, 5 Jan 2024 13:22:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 15:05:45.247513
Title: PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering
Title（参考訳）: PeFoMed: 医用視覚質問応答のための多モーダル大言語モデルのパラメータ最適化
Authors: Jinlong He, Pengfei Li, Gang Liu, Zixu Zhao, Shenjun Zhong
Abstract要約: MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表す。近年,医療用視覚質問応答(Med-VQA)タスクを解くための生成タスクとして,MLLMのフリーフォーム回答への適応について検討している。本稿では,Med-VQAアプリケーションに適したMLLMを微調整するためのパラメータ効率のよいフレームワークを提案し,それを公開ベンチマークデータセット上で実証的に検証する。
参考スコア（独自算出の注目度）: 13.788947412193467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) represent an evolutionary expansion in the capabilities of traditional large language models, enabling them to tackle challenges that surpass the scope of purely text-based applications. It leverages the knowledge previously encoded within these language models, thereby enhancing their applicability and functionality in the reign of multimodal contexts. Recent works investigate the adaptation of MLLMs to predict free-form answers as a generative task to solve medical visual question answering (Med-VQA) tasks. In this paper, we propose a parameter efficient framework for fine-tuning MLLM specifically tailored to Med-VQA applications, and empirically validate it on a public benchmark dataset. To accurately measure the performance, we employ human evaluation and the results reveal that our model achieves an overall accuracy of 81.9%, and outperforms the GPT-4v model by a significant margin of 26% absolute accuracy on closed-ended questions. The code will be available here: https://github.com/jinlHe/PeFoMed.
Abstract（参考訳）: MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表すもので、純粋にテキストベースのアプリケーションの範囲を超えた課題に取り組むことができる。以前はこれらの言語モデルにエンコードされていた知識を活用し、マルチモーダルな文脈における適用性と機能を向上させる。近年,医療用視覚質問応答(Med-VQA)タスクを解くための生成タスクとして,MLLMのフリーフォーム回答への適応について検討している。本稿では,Med-VQAアプリケーションに適したMLLMを微調整するためのパラメータ効率のよいフレームワークを提案し,それを公開ベンチマークデータセット上で実証的に検証する。性能を正確に測定するために,人間による評価を行い,本モデルが全体の精度81.9%を達成し,クローズドエンドの質問に対して,gpt-4vモデルに26%の絶対精度のかなりのマージンで勝ることを示した。コードは、https://github.com/jinlHe/PeFoMed.comで入手できる。

関連論文リスト

MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。 MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文参考訳（メタデータ） (2025-07-07T17:01:44Z)
OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。 OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文参考訳（メタデータ） (2025-05-24T16:29:34Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文参考訳（メタデータ） (2024-10-31T11:07:26Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks [11.094602017349928]
本研究では,MLLMの性能評価を行うためのベンチマークとしてFMBenchを提案する。一般医療を含む8つの最先端オープンソースMLLMの性能と妥当性を徹底的に評価した。すべてのデータとコードは、受け入れられると解放される。
論文参考訳（メタデータ） (2024-10-01T21:38:15Z)
Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。 InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。 ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文参考訳（メタデータ） (2024-09-30T19:10:03Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
Multi-Modal Perceiver Language Model for Outcome Prediction in Emergency Department [0.03088120935391119]
主訴のテキスト情報とトリアージで記録されたバイタルサインに基づいて, 病院救急部門における結果予測と患者トリアージに関心がある。我々は、いくつかのアプリケーションで有望な結果を示すモダリティに依存しないトランスフォーマーベースのモデルであるPerceiverを適応する。実験では,テキストやバイタルサインのみを訓練したモデルと比較して,変異モダリティが予測性能を向上させることを示した。
論文参考訳（メタデータ） (2023-04-03T06:32:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。