論文の概要: Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach
- arxiv url: http://arxiv.org/abs/2409.05732v1
- Date: Mon, 9 Sep 2024 15:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:06:46.363650
- Title: Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach
- Title(参考訳): 医用多言語大言語モデルの民主化に向けて : 2段階指導微調整アプローチ
- Authors: Meng Zhou, Surajsinh Parmar, Anubhav Bhatti,
- Abstract要約: オープンソースの多言語医療用大規模言語モデル (LLM) は、様々な地域において言語的に多様な人口を提供する可能性を秘めている。
6言語で200万以上の高品質な医療サンプルを含む2つの多言語命令微調整データセットを導入する。
第1段階はMMed-IFTを用いて一般的な医療知識を注入し,第2段階はMMed-IFT-MCを用いたタスク固有の複数選択質問を行う。
- 参考スコア(独自算出の注目度): 6.921012069327385
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open-source, multilingual medical large language models (LLMs) have the potential to serve linguistically diverse populations across different regions. Adapting generic LLMs for healthcare often requires continual pretraining, but this approach is computationally expensive and sometimes impractical. Instruction fine-tuning on a specific task may not always guarantee optimal performance due to the lack of broader domain knowledge that the model needs to understand and reason effectively in diverse scenarios. To address these challenges, we introduce two multilingual instruction fine-tuning datasets, MMed-IFT and MMed-IFT-MC, containing over 200k high-quality medical samples in six languages. We propose a two-stage training paradigm: the first stage injects general medical knowledge using MMed-IFT, while the second stage fine-tunes task-specific multiple-choice questions with MMed-IFT-MC. Our method achieves competitive results on both English and multilingual benchmarks, striking a balance between computational efficiency and performance. We plan to make our dataset and model weights public at \url{https://github.com/SpassMed/Med-Llama3} in the future.
- Abstract(参考訳): オープンソースの多言語医療用大規模言語モデル (LLM) は、様々な地域において言語的に多様な人口を提供する可能性を秘めている。
一般のLSMを医療に適応させるには、しばしば継続的な事前訓練が必要であるが、このアプローチは計算に高価であり、時には実用的ではない。
モデルが様々なシナリオにおいて効果的に理解し、推論する必要があるというより広範なドメイン知識が欠如しているため、特定のタスクのインストラクションの微調整が常に最適なパフォーマンスを保証するとは限らない。
これらの課題に対処するために、MMed-IFTとMMed-IFT-MCという2つの多言語命令微調整データセットを導入し、6言語で200万以上の高品質な医療サンプルを含む。
第1段階はMMed-IFTを用いて一般的な医療知識を注入し,第2段階はMMed-IFT-MCを用いたタスク固有の複数選択質問を行う。
提案手法は,英語と多言語両方のベンチマークにおいて,計算効率と性能のバランスを保ちながら,競合する結果を得る。
将来、データセットとモデルウェイトを \url{https://github.com/SpassMed/Med-Llama3} で公開する予定です。
関連論文リスト
- Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - MING-MOE: Enhancing Medical Multi-Task Learning in Large Language Models with Sparse Mixture of Low-Rank Adapter Experts [22.596827147978598]
本稿では,MING-MOE(Mixture-of-Expert)をベースとした医療用大規模言語モデルを提案する。
タスク固有のアノテーションを必要とせずに、多種多様な複雑な医療タスクを管理するように設計されている。
20以上の医療タスクで最先端(SOTA)のパフォーマンスを達成し、既存のモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-13T15:28:52Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained
Language Model [37.69464822182714]
ほとんどの生物医学的な事前訓練された言語モデルはモノリンガルであり、言語間要求の増大に対処できない。
本稿では,多言語事前学習型XLM-Rを知識アンコール手法を用いて生物医学領域に変換するKBioXLMというモデルを提案する。
論文 参考訳(メタデータ) (2023-11-20T07:02:35Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。