論文の概要: Considerations for health care institutions training large language
models on electronic health records
- arxiv url: http://arxiv.org/abs/2309.12339v1
- Date: Thu, 24 Aug 2023 00:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 13:04:45.129720
- Title: Considerations for health care institutions training large language
models on electronic health records
- Title(参考訳): 電子健康記録に基づく大規模言語モデルを訓練する医療機関の考察
- Authors: Weipeng Zhou, Danielle Bitterman, Majid Afshar, Timothy A. Miller
- Abstract要約: ChatGPTのような大規模言語モデル(LLM)は、フィールド全体にわたってエキサイティングな科学者を持っている。
医学において、興奮の源の1つは、電子健康記録(EHR)データに基づいて訓練されたLSMの潜在的な応用である。
しかし、医療機関が自身のデータに基づいてLSMをトレーニングすることに関心があるなら、まずは難しい疑問がある。
- 参考スコア(独自算出の注目度): 7.048517095805301
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) like ChatGPT have excited scientists across
fields; in medicine, one source of excitement is the potential applications of
LLMs trained on electronic health record (EHR) data. But there are tough
questions we must first answer if health care institutions are interested in
having LLMs trained on their own data; should they train an LLM from scratch or
fine-tune it from an open-source model? For healthcare institutions with a
predefined budget, what are the biggest LLMs they can afford? In this study, we
take steps towards answering these questions with an analysis on dataset sizes,
model sizes, and costs for LLM training using EHR data. This analysis provides
a framework for thinking about these questions in terms of data scale, compute
scale, and training budgets.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、フィールド全体に励起科学者がいる。医学では、電子健康記録(EHR)データに基づいてトレーニングされたLSMの潜在的な応用が興奮の源となっている。
しかし、医療機関が自身のデータに基づいてLSMをトレーニングすることに関心があるのであれば、まずは難しい疑問があります — LLMをスクラッチからトレーニングするか、あるいはオープンソースモデルから微調整すべきか?
事前定義された予算を持つ医療機関にとって、最大のLCMは何か。
本研究では,これらの質問に対して,データセットのサイズ,モデルサイズ,コストをEHRデータを用いたLLMトレーニングで分析して答える。
この分析は、データスケール、計算スケール、トレーニング予算の観点からこれらの問題を考えるためのフレームワークを提供する。
関連論文リスト
- Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources [0.0]
本稿では,近年の7Bモデルに基づく医療適応について述べる。
日本語医学データセットに基づく英語中心ベースモデルの微調整により,両言語のスコアが向上することが判明した。
論文 参考訳(メタデータ) (2024-09-18T08:07:37Z) - A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations [5.265452667976959]
本調査は,オープンソース汎用LSMをベースとした医療用LSMのトレーニング方法を体系的にまとめたものである。
a) トレーニングコーパスの取得方法、カスタマイズされた医療トレーニングセットの構築方法、(b) 適切なトレーニングパラダイムの選択方法、(d) 既存の課題と有望な研究方向性をカバーしている。
論文 参考訳(メタデータ) (2024-06-14T02:42:20Z) - Retrieval Augmented Thought Process for Private Data Handling in Healthcare [53.89406286212502]
Retrieval-Augmented Thought Process (RATP)を紹介する。
RATPは大規模言語モデル(LLM)の思考生成を定式化する
電子カルテのプライベートデータセットにおいて、RATPは、質問応答タスクのコンテキスト内検索強化生成と比較して35%の精度を達成している。
論文 参考訳(メタデータ) (2024-02-12T17:17:50Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - LLM-based Medical Assistant Personalization with Short- and Long-Term Memory Coordination [20.269899169364397]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。
本稿では,パラメータ効率のよい微細チューニング(PEFT)スキーマを備え,医療アシスタントをパーソナライズするための新しい計算バイオニックメモリ機構を提案する。
論文 参考訳(メタデータ) (2023-09-21T00:34:33Z) - Balanced and Explainable Social Media Analysis for Public Health with
Large Language Models [13.977401672173533]
公共衛生分析の現在の技術は、BERTや大規模言語モデル(LLM)のような一般的なモデルである。
これらの課題に対処するために、ソーシャルメディアデータセットの高度なデータ拡張手法によって、データの不均衡を克服することができる。
本稿では,公衆衛生に関するソーシャルメディア分析のための新しいALEXフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-12T04:15:34Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。