Fugu-MT 論文翻訳(概要): Considerations for health care institutions training large language models on electronic health records

論文の概要: Considerations for health care institutions training large language models on electronic health records

arxiv url: http://arxiv.org/abs/2309.12339v1
Date: Thu, 24 Aug 2023 00:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-01 13:04:45.129720
Title: Considerations for health care institutions training large language models on electronic health records
Title（参考訳）: 電子健康記録に基づく大規模言語モデルを訓練する医療機関の考察
Authors: Weipeng Zhou, Danielle Bitterman, Majid Afshar, Timothy A. Miller
Abstract要約: ChatGPTのような大規模言語モデル(LLM)は、フィールド全体にわたってエキサイティングな科学者を持っている。医学において、興奮の源の1つは、電子健康記録(EHR)データに基づいて訓練されたLSMの潜在的な応用である。しかし、医療機関が自身のデータに基づいてLSMをトレーニングすることに関心があるなら、まずは難しい疑問がある。
参考スコア（独自算出の注目度）: 7.048517095805301
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) like ChatGPT have excited scientists across fields; in medicine, one source of excitement is the potential applications of LLMs trained on electronic health record (EHR) data. But there are tough questions we must first answer if health care institutions are interested in having LLMs trained on their own data; should they train an LLM from scratch or fine-tune it from an open-source model? For healthcare institutions with a predefined budget, what are the biggest LLMs they can afford? In this study, we take steps towards answering these questions with an analysis on dataset sizes, model sizes, and costs for LLM training using EHR data. This analysis provides a framework for thinking about these questions in terms of data scale, compute scale, and training budgets.
Abstract（参考訳）: ChatGPTのような大規模言語モデル(LLM)は、フィールド全体に励起科学者がいる。医学では、電子健康記録(EHR)データに基づいてトレーニングされたLSMの潜在的な応用が興奮の源となっている。しかし、医療機関が自身のデータに基づいてLSMをトレーニングすることに関心があるのであれば、まずは難しい疑問があります — LLMをスクラッチからトレーニングするか、あるいはオープンソースモデルから微調整すべきか? 事前定義された予算を持つ医療機関にとって、最大のLCMは何か。本研究では,これらの質問に対して,データセットのサイズ,モデルサイズ,コストをEHRデータを用いたLLMトレーニングで分析して答える。この分析は、データスケール、計算スケール、トレーニング予算の観点からこれらの問題を考えるためのフレームワークを提供する。

関連論文リスト

Position: The Most Expensive Part of an LLM should be its Training Data [38.3722794045587]
LLM(Large Language Model)のトレーニングは、計算、ハードウェア、エネルギ、エンジニアリングの要求が増大するため、ますますコストがかかる。しかし、しばしば見過ごされる(そしてほとんど支払われない)費用は、これらのモデルのトレーニングデータの背後にある人的労働である。このポジションペーパーは、この労働に金銭的価値を割り当てることを目的としており、LCM生産の最も高価な部分は、データ生産者のトレーニングに提供される報酬であるべきだと論じている。
論文参考訳（メタデータ） (2025-04-16T18:56:14Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs [1.8524621910043437]
大規模言語モデル(LLM)は、医療データに対する意味的質問応答(QA)を可能にする。プライバシとコンプライアンスを保証するには、LLMのエッジとプライベートのデプロイメントが必要です。 GPT-4 や GPT-4o などのベンチマークモデルに対して,プライベートホスト型,微調整型 LLM の評価を行った。
論文参考訳（メタデータ） (2025-01-23T14:13:56Z)
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources [0.0]
本稿では,近年の7Bモデルに基づく医療適応について述べる。日本語医学データセットに基づく英語中心ベースモデルの微調整により,両言語のスコアが向上することが判明した。
論文参考訳（メタデータ） (2024-09-18T08:07:37Z)
A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations [5.265452667976959]
本調査は,オープンソース汎用LSMをベースとした医療用LSMのトレーニング方法を体系的にまとめたものである。 a) トレーニングコーパスの取得方法、カスタマイズされた医療トレーニングセットの構築方法、(b) 適切なトレーニングパラダイムの選択方法、(d) 既存の課題と有望な研究方向性をカバーしている。
論文参考訳（メタデータ） (2024-06-14T02:42:20Z)
Retrieval Augmented Thought Process for Private Data Handling in Healthcare [53.89406286212502]
Retrieval-Augmented Thought Process (RATP)を紹介する。 RATPは大規模言語モデル(LLM)の思考生成を定式化する電子カルテのプライベートデータセットにおいて、RATPは、質問応答タスクのコンテキスト内検索強化生成と比較して35%の精度を達成している。
論文参考訳（メタデータ） (2024-02-12T17:17:50Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文参考訳（メタデータ） (2023-11-09T02:55:58Z)
LLM-based Medical Assistant Personalization with Short- and Long-Term Memory Coordination [20.269899169364397]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。本稿では,パラメータ効率のよい微細チューニング(PEFT)スキーマを備え,医療アシスタントをパーソナライズするための新しい計算バイオニックメモリ機構を提案する。
論文参考訳（メタデータ） (2023-09-21T00:34:33Z)
Balanced and Explainable Social Media Analysis for Public Health with Large Language Models [13.977401672173533]
公共衛生分析の現在の技術は、BERTや大規模言語モデル(LLM)のような一般的なモデルである。これらの課題に対処するために、ソーシャルメディアデータセットの高度なデータ拡張手法によって、データの不均衡を克服することができる。本稿では,公衆衛生に関するソーシャルメディア分析のための新しいALEXフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-12T04:15:34Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。本調査では,これらのアライメント技術の概要について概観する。
論文参考訳（メタデータ） (2023-07-24T17:44:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。