論文の概要: Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts
- arxiv url: http://arxiv.org/abs/2410.10626v1
- Date: Mon, 14 Oct 2024 15:31:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:35:30.878490
- Title: Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts
- Title(参考訳): 言語ファミリーエキスパートの混在による50言語における医療用LLMの効率的な民主化
- Authors: Guorui Zheng, Xidong Wang, Juhao Liang, Nuo Chen, Yuping Zheng, Benyou Wang,
- Abstract要約: 医療用大規模言語モデルをローカル言語に適応させることで、医療サービスへのアクセス障壁を減らすことができる。
まず、高品質な医療データセットを構築し、その品質を確保するために分析を行う。
言語固有の専門家と言語間ルーティングを用いた新しいMoEルーティング手法を提案する。
- 参考スコア(独自算出の注目度): 29.091853631327304
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adapting medical Large Language Models to local languages can reduce barriers to accessing healthcare services, but data scarcity remains a significant challenge, particularly for low-resource languages. To address this, we first construct a high-quality medical dataset and conduct analysis to ensure its quality. In order to leverage the generalization capability of multilingual LLMs to efficiently scale to more resource-constrained languages, we explore the internal information flow of LLMs from a multilingual perspective using Mixture of Experts (MoE) modularity. Technically, we propose a novel MoE routing method that employs language-specific experts and cross-lingual routing. Inspired by circuit theory, our routing analysis revealed a Spread Out in the End information flow mechanism: while earlier layers concentrate cross-lingual information flow, the later layers exhibit language-specific divergence. This insight directly led to the development of the Post-MoE architecture, which applies sparse routing only in the later layers while maintaining dense others. Experimental results demonstrate that this approach enhances the generalization of multilingual models to other languages while preserving interpretability. Finally, to efficiently scale the model to 50 languages, we introduce the concept of language family experts, drawing on linguistic priors, which enables scaling the number of languages without adding additional parameters.
- Abstract(参考訳): 医療用大規模言語モデルをローカル言語に適応させることは、医療サービスへのアクセス障壁を減らすことができるが、データ不足は、特に低リソース言語にとって重要な課題である。
そこで我々はまず,高品質な医療データセットを構築し,その品質を確保するために分析を行う。
多言語 LLM の一般化能力を活用し,資源制約のある言語に効率よくスケールするために,Mixture of Experts (MoE) を用いた多言語の観点から LLM の内部情報フローについて検討する。
技術的には,言語固有の専門家と言語間ルーティングを用いた新しいMoEルーティング手法を提案する。
回路理論にインスパイアされたルーティング解析により,エンド情報フローにおけるスプレッドアウト(Spread Out in the End)が明らかになった。
この洞察が直接的にPost-MoEアーキテクチャの開発につながった。
実験の結果,解釈可能性を維持しつつ,多言語モデルの他言語への一般化を促進することが確認された。
最後に、モデルを50言語に効率的にスケールするために、言語学の先行概念に基づいて言語家族の専門家の概念を導入し、追加のパラメータを追加せずに言語数をスケールできるようにする。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters [3.7273829129985305]
本稿では,言語から多言語大モデル(LLM)へのグラフ知識の統合について検討する。
我々は、感情分析(SA)および名前付きエンティティ認識(NER)における低リソース言語(LRL)の性能向上のために、言語固有のアダプタを使用している。
構造化グラフ知識が,SA および NER における LRL の多言語 LLM の性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-01T15:56:24Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。