論文の概要: Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation
- arxiv url: http://arxiv.org/abs/2507.03033v1
- Date: Thu, 03 Jul 2025 01:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.543488
- Title: Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation
- Title(参考訳): プライバシの保護、アクセシビリティの向上、コスト削減:医療記録とノート生成のためのオンデバイス人工知能モデル
- Authors: Johnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi,
- Abstract要約: Llama 3.2 1Bモデルを用いて,プライバシ保護・オンデバイス医療転写システムの開発と評価を行った。
このモデルは、完全にブラウザ内で完全なデータ主権を維持しながら、医療転写から構造化された医療メモを生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Clinical documentation represents a significant burden for healthcare providers, with physicians spending up to 2 hours daily on administrative tasks. Recent advances in large language models (LLMs) offer promising solutions, but privacy concerns and computational requirements limit their adoption in healthcare settings. Objective: To develop and evaluate a privacy-preserving, on-device medical transcription system using a fine-tuned Llama 3.2 1B model capable of generating structured medical notes from medical transcriptions while maintaining complete data sovereignty entirely in the browser. Methods: We fine-tuned a Llama 3.2 1B model using Parameter-Efficient Fine-Tuning (PEFT) with LoRA on 1,500 synthetic medical transcription-to-structured note pairs. The model was evaluated against the base Llama 3.2 1B on two datasets: 100 endocrinology transcripts and 140 modified ACI benchmark cases. Evaluation employed both statistical metrics (ROUGE, BERTScore, BLEURT) and LLM-as-judge assessments across multiple clinical quality dimensions. Results: The fine-tuned OnDevice model demonstrated substantial improvements over the base model. On the ACI benchmark, ROUGE-1 scores increased from 0.346 to 0.496, while BERTScore F1 improved from 0.832 to 0.866. Clinical quality assessments showed marked reduction in major hallucinations (from 85 to 35 cases) and enhanced factual correctness (2.81 to 3.54 on 5-point scale). Similar improvements were observed on the internal evaluation dataset, with composite scores increasing from 3.13 to 4.43 (+41.5%). Conclusions: Fine-tuning compact LLMs for medical transcription yields clinically meaningful improvements while enabling complete on-device browser deployment. This approach addresses key barriers to AI adoption in healthcare: privacy preservation, cost reduction, and accessibility for resource-constrained environments.
- Abstract(参考訳): 背景: 臨床文書は医療提供者にとって重大な負担であり、医師は管理業務に1日2時間以上費やしている。
大規模言語モデル(LLM)の最近の進歩は、有望なソリューションを提供するが、プライバシの懸念と計算要求は、医療設定における採用を制限する。
目的:ブラウザ内で完全に完全なデータ主権を維持しつつ、医療書面から構造化された医療書面を生成することができる微調整のLlama 3.21Bモデルを用いて、プライバシ保護されたオンデバイス医療書面システムの開発と評価を行う。
方法: 1500の合成医用転写-構造ノートペア上で, PEFTを用いたLlama 3.211BモデルをLoRAで微調整した。
このモデルはLlama 3.2 1Bベースに対して、100の内分泌学転写産物と140の修正ACIベンチマークケースの2つのデータセットで評価された。
評価には, 統計指標(ROUGE, BERTScore, BLEURT)とLLM-as-judgeアセスメントを用いた。
結果: 微調整されたOnDeviceモデルは、ベースモデルよりも大幅に改善された。
ACIベンチマークではROUGE-1スコアは0.346から0.496に増加し、BERTScore F1は0.832から0.866に改善された。
臨床的品質評価では,85例から35例に顕著な幻覚が減少し,5点スケールでは2.81例から3.54例に改善した。
内部評価データセットでも同様の改善が見られ、複合スコアは3.13から4.43(+41.5%)に増加した。
結論: 医療転写のための微調整コンパクトLCMは、デバイス上でのブラウザの完全な展開を可能にしながら、臨床的に有意義な改善をもたらす。
このアプローチは、プライバシ保護、コスト削減、リソース制約のある環境へのアクセシビリティといった、医療におけるAI採用の障壁に対処する。
関連論文リスト
- MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。
SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。
本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T21:40:21Z) - TheBlueScrubs-v1, a comprehensive curated medical dataset derived from the internet [1.4043931310479378]
BlueScrubs-v1は、広範囲のインターネットコーパスから得られた2500億以上の医療トークンの収集されたデータセットである。
各テキストには、医療関連性、精度、事実の詳細、安全性と倫理基準を含む3つのLCMベースの品質スコアが割り当てられている。
このData Descriptorは、データセットの作成と検証について詳述し、医療AI研究の潜在的有用性について説明している。
論文 参考訳(メタデータ) (2025-04-01T22:25:19Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Improving Clinical Documentation with AI: A Comparative Study of Sporo AI Scribe and GPT-4o mini [0.0]
Sporo HealthのAI書式はOpenAIのGPT-4o Miniに対して評価された。
結果から,スポロAIはGPT-4o Miniを一貫して上回り,リコール率,精度,F1スコア全体を達成した。
論文 参考訳(メタデータ) (2024-10-20T22:48:40Z) - Autocompletion of Chief Complaints in the Electronic Health Records
using Large Language Models [0.3749861135832072]
テキスト生成技術を用いて,CCデータを用いた機械学習モデルを構築する。
我々は, GPT-4のOpenAI APIを利用して, CC文を組み込むことで, プロンプトを調整した。
モデルの性能は、パープレキシティスコア、修正BERTSスコア、コサイン類似度スコアに基づいて評価する。
論文 参考訳(メタデータ) (2024-01-11T18:06:30Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。