論文の概要: Can LLMs' Tuning Methods Work in Medical Multimodal Domain?
- arxiv url: http://arxiv.org/abs/2403.06407v2
- Date: Mon, 8 Jul 2024 08:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 02:19:20.936577
- Title: Can LLMs' Tuning Methods Work in Medical Multimodal Domain?
- Title(参考訳): LLMのチューニング手法は医療マルチモーダル領域で有効か?
- Authors: Jiawei Chen, Yue Jiang, Dingkang Yang, Mingcheng Li, Jinjie Wei, Ziyun Qian, Lihua Zhang,
- Abstract要約: 大言語モデル(LLM)は世界知識の理解に優れ、特定のサブフィールドに適応するには正確な調整が必要である。
LLM(Large Vision-Language Models)とLVLM(Large Vision-Language Models)の両方において,PEFT法が出現し,大きな成功を収めている。
転帰学習効率を高めるため,大規模モデルの微調整法を医療分野に移行することは可能か?
- 参考スコア(独自算出の注目度): 14.659849302397433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) excel in world knowledge understanding, adapting them to specific subfields requires precise adjustments. Due to the model's vast scale, traditional global fine-tuning methods for large models can be computationally expensive and impact generalization. To address this challenge, a range of innovative Parameters-Efficient Fine-Tuning (PEFT) methods have emerged and achieved remarkable success in both LLMs and Large Vision-Language Models (LVLMs). In the medical domain, fine-tuning a medical Vision-Language Pretrained (VLP) model is essential for adapting it to specific tasks. Can the fine-tuning methods for large models be transferred to the medical field to enhance transfer learning efficiency? In this paper, we delve into the fine-tuning methods of LLMs and conduct extensive experiments to investigate the impact of fine-tuning methods for large models on the existing multimodal model in the medical domain from the training data level and the model structure level. We show the different impacts of fine-tuning methods for large models on medical VLMs and develop the most efficient ways to fine-tune medical VLP models. We hope this research can guide medical domain researchers in optimizing VLMs' training costs, fostering the broader application of VLMs in healthcare fields. The code and dataset have been released at https://github.com/TIMMY-CHAN/MILE.
- Abstract(参考訳): LLM(Large Language Models)は世界の知識理解に優れているが、特定のサブフィールドに適応するには正確な調整が必要である。
モデルが大規模なため、大規模なモデルに対する従来のグローバルな微調整手法は計算コストがかかり、一般化に影響を及ぼす可能性がある。
この課題に対処するために,LLMとLVLM(Large Vision-Language Models)の両分野で,革新的なパラメータ・効率的なファインチューニング(PEFT)手法が出現し,大きな成功を収めている。
医療分野では、特定のタスクに適応するためには、医療ビジョン・ランゲージ事前訓練(VLP)モデルを微調整することが不可欠である。
転帰学習効率を高めるため,大規模モデルの微調整法を医療分野に移行することは可能か?
本稿では, LLMの微調整方法について検討し, トレーニングデータレベルとモデル構造レベルから, 医療領域における既存のマルチモーダルモデルに対する大規模モデルの微調整方法の影響について検討する。
医療用VLMにおける大規模モデルの微調整方法の違いを示し,医療用VLPモデルを微調整する最も効率的な方法を開発した。
本研究は, VLMのトレーニングコストを最適化し, 医療分野におけるVLMの幅広い応用を促進するために, 医療領域の研究者を導くことができることを願っている。
コードとデータセットはhttps://github.com/TIMMY-CHAN/MILEで公開されている。
関連論文リスト
- LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文 参考訳(メタデータ) (2024-07-16T19:32:23Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - From Beginner to Expert: Modeling Medical Knowledge into General LLMs [22.475129648458136]
大規模言語モデル(LLM)に基づく人工知能(AI)システムは、自然言語の理解と生成において顕著な能力を示した。
これらのモデルは、医学的な知識を推論したり、医師のような方法で医学的な疑問に答えたりするといった、繊細な応用に関して重要な課題に直面している。
本研究は、事前訓練された一般LLMモデル(AntGLM-10B)から始まり、医療初心者から医療専門家(AntGLM-Med-10B)に微調整する。
論文 参考訳(メタデータ) (2023-12-02T05:54:06Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - How to Train Your CheXDragon: Training Chest X-Ray Models for Transfer
to Novel Tasks and Healthcare Systems [0.118749525824656]
自己教師付き学習(SSL)は、機械学習モデルのラベルの効率的なトレーニングを可能にする。
本研究では,様々な教師付き・自己監督型事前学習戦略を体系的に実験する。
マルチモーダルSSLは、新しい医療システムやタスクにおいて、非モーダルSSLよりもパフォーマンスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-13T22:33:09Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。