論文の概要: MediSwift: Efficient Sparse Pre-trained Biomedical Language Models
- arxiv url: http://arxiv.org/abs/2403.00952v1
- Date: Fri, 1 Mar 2024 20:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:45:40.512349
- Title: MediSwift: Efficient Sparse Pre-trained Biomedical Language Models
- Title(参考訳): MediSwift: 十分に訓練されたバイオメディカル言語モデル
- Authors: Vithursan Thangarasa, Mahmoud Salem, Shreyas Saxena, Kevin Leong, Joel
Hestness, Sean Lie
- Abstract要約: MediSwiftは、ドメイン固有のバイオメディカルテキストデータに対するスパース事前トレーニングを利用するバイオメディカルLMのスイートである。
トレーニング前段階で最大75%の重量幅を誘導することにより、トレーニングFLOPの2-2.5倍の削減を実現している。
この結果から,スパース事前学習と高密度微調整およびソフトプロンプトが,特殊領域における高性能で計算効率の良いモデル作成に有効な方法であることがわかった。
- 参考スコア(独自算出の注目度): 2.327390371420762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are typically trained on general source data for
various domains, but a recent surge in domain-specific LLMs has shown their
potential to outperform general-purpose models in domain-specific tasks (e.g.,
biomedicine). Although domain-specific pre-training enhances efficiency and
leads to smaller models, the computational costs of training these LLMs remain
high, posing budgeting challenges. We introduce MediSwift, a suite of
biomedical LMs that leverage sparse pre-training on domain-specific biomedical
text data. By inducing up to 75% weight sparsity during the pre-training phase,
MediSwift achieves a 2-2.5x reduction in training FLOPs. Notably, all sparse
pre-training was performed on the Cerebras CS-2 system, which is specifically
designed to realize the acceleration benefits from unstructured weight
sparsity, thereby significantly enhancing the efficiency of the MediSwift
models. Through subsequent dense fine-tuning and strategic soft prompting,
MediSwift models outperform existing LLMs up to 7B parameters on biomedical
tasks, setting new benchmarks w.r.t efficiency-accuracy on tasks such as
PubMedQA. Our results show that sparse pre-training, along with dense
fine-tuning and soft prompting, offers an effective method for creating
high-performing, computationally efficient models in specialized domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、通常、様々なドメインの一般的なソースデータに基づいて訓練されるが、近年のドメイン固有のLSMの急増により、ドメイン固有のタスク(例えばバイオメディシン)において汎用モデルより優れている可能性が示されている。
ドメイン固有の事前学習は効率を高め、より小さなモデルを生み出すが、これらのLSMを訓練する際の計算コストは高いままであり、予算の課題を呈している。
我々は、ドメイン固有のバイオメディカルテキストデータに対するスパース事前トレーニングを利用するバイオメディカルLMのスイートであるMediSwiftを紹介する。
トレーニング前段階で最大75%の重量幅を誘導することにより、トレーニングFLOPの2-2.5倍の削減を実現している。
特筆すべきは、全てのスパース事前訓練は、非構造的な重みのスパース性による加速効果を実現するために特別に設計されたcerebras cs-2システムで実行され、メディスウィフトモデルの効率が著しく向上したことである。
その後の密集した微調整と戦略的なソフトプロンプトにより、MediSwiftモデルは、バイオメディカルタスクにおいて、既存のLLMの最大7Bパラメータを上回り、PubMedQAのようなタスクにおける効率の正確さに関する新しいベンチマークを設定した。
この結果から,スパース事前学習と高密度微調整およびソフトプロンプトが,特殊領域における高性能で計算効率の良いモデル作成に有効であることがわかった。
関連論文リスト
- The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - The Impact of LoRA Adapters for LLMs on Clinical NLP Classification Under Data Limitations [4.72457683445805]
臨床自然言語処理(NLP)のための微調整大型言語モデル(LLM)は、ドメインギャップと限られたデータ可用性のために大きな課題を提起する。
本研究では,ローランド適応(LoRA)に準ずる各種アダプタ技術の有効性について検討する。
我々は2つのTransformerベースのモデルとともに、CamemBERT-bio、AliBERT、DrBERTなどのバイオメディカル事前訓練モデルを微調整した。
論文 参考訳(メタデータ) (2024-07-27T16:48:03Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Developing Healthcare Language Model Embedding Spaces [0.20971479389679337]
事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。
従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、およびヘルスケア設定からメタデータカテゴリを利用する新しい事前学習目標の3つの手法が評価されている。
対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。
論文 参考訳(メタデータ) (2024-03-28T19:31:32Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。