論文の概要: PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language
Models for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2401.02797v1
- Date: Fri, 5 Jan 2024 13:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:05:45.247513
- Title: PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language
Models for Medical Visual Question Answering
- Title(参考訳): PeFoMed: 医用視覚質問応答のための多モーダル大言語モデルのパラメータ最適化
- Authors: Jinlong He, Pengfei Li, Gang Liu, Zixu Zhao, Shenjun Zhong
- Abstract要約: MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表す。
近年,医療用視覚質問応答(Med-VQA)タスクを解くための生成タスクとして,MLLMのフリーフォーム回答への適応について検討している。
本稿では,Med-VQAアプリケーションに適したMLLMを微調整するためのパラメータ効率のよいフレームワークを提案し,それを公開ベンチマークデータセット上で実証的に検証する。
- 参考スコア(独自算出の注目度): 13.788947412193467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) represent an evolutionary expansion
in the capabilities of traditional large language models, enabling them to
tackle challenges that surpass the scope of purely text-based applications. It
leverages the knowledge previously encoded within these language models,
thereby enhancing their applicability and functionality in the reign of
multimodal contexts. Recent works investigate the adaptation of MLLMs to
predict free-form answers as a generative task to solve medical visual question
answering (Med-VQA) tasks. In this paper, we propose a parameter efficient
framework for fine-tuning MLLM specifically tailored to Med-VQA applications,
and empirically validate it on a public benchmark dataset. To accurately
measure the performance, we employ human evaluation and the results reveal that
our model achieves an overall accuracy of 81.9%, and outperforms the GPT-4v
model by a significant margin of 26% absolute accuracy on closed-ended
questions. The code will be available here: https://github.com/jinlHe/PeFoMed.
- Abstract(参考訳): MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表すもので、純粋にテキストベースのアプリケーションの範囲を超えた課題に取り組むことができる。
以前はこれらの言語モデルにエンコードされていた知識を活用し、マルチモーダルな文脈における適用性と機能を向上させる。
近年,医療用視覚質問応答(Med-VQA)タスクを解くための生成タスクとして,MLLMのフリーフォーム回答への適応について検討している。
本稿では,Med-VQAアプリケーションに適したMLLMを微調整するためのパラメータ効率のよいフレームワークを提案し,それを公開ベンチマークデータセット上で実証的に検証する。
性能を正確に測定するために,人間による評価を行い,本モデルが全体の精度81.9%を達成し,クローズドエンドの質問に対して,gpt-4vモデルに26%の絶対精度のかなりのマージンで勝ることを示した。
コードは、https://github.com/jinlHe/PeFoMed.comで入手できる。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for
Multimodal Large Language Models [60.27894243926344]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - DERA: Enhancing Large Language Model Completions with Dialog-Enabled
Resolving Agents [5.562984399879218]
大規模言語モデル(LLM)は多くの自然言語理解タスクに有用なツールとして登場した。
本稿では,対話型解決エージェント(DERA)について述べる。
DERAは、LPMの会話能力の増加、すなわちGPT-4によって実現されたパラダイムである。
モデルがフィードバックを伝達し、反復的に出力を改善するための、シンプルで解釈可能なフォーラムを提供する。
論文 参考訳(メタデータ) (2023-03-30T00:30:19Z) - Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models [42.360431316298204]
我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-03-10T15:17:22Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - On the Universality of Deep COntextual Language Models [15.218264849664715]
ELMOやBERTのような深い文脈言語モデル(LM)は、自然言語処理のランドスケープを支配している。
XLM-RやmBERTのような多言語モデルでは、ゼロショットのクロスリンガル転送が期待できる結果となった。
この最初の成功により、訓練済みのモデルはユニバーサル言語モデルとして使用されている。
論文 参考訳(メタデータ) (2021-09-15T08:00:33Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。