論文の概要: Self-Prompting Small Language Models for Privacy-Sensitive Clinical Information Extraction
- arxiv url: http://arxiv.org/abs/2605.04221v1
- Date: Tue, 05 May 2026 19:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.497899
- Title: Self-Prompting Small Language Models for Privacy-Sensitive Clinical Information Extraction
- Title(参考訳): プライバシーに敏感な臨床情報抽出のための自己プロンピング型小言語モデル
- Authors: Yao-Shun Chuang, Tushti Mody, Uday Pratap Singh, Shirindokht Shiraz, Chun-Teh Lee, Ryan Brandon, Muhammad F Walji, Xiaoqian Jiang, Bunmi Tokede,
- Abstract要約: 我々は,小言語モデルを自己生成し,検証し,洗練し,エンティティ固有のプロンプトを評価するためのフレームワークを開発した。
我々は,QLoRAに基づく教師付き微調整と直接選好最適化を用いて,マルチプロンプトアンサンブル推論と選択モデルを用いた候補オープンウェイトモデルの評価を行った。
これらの結果から,自動プロンプト最適化と軽量な嗜好ベースのポストトレーニングが,スケーラブルな臨床情報抽出を支援することが示唆された。
- 参考スコア(独自算出の注目度): 5.6073733544594395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical named entity recognition from dental progress notes is challenging because documentation is highly unstructured, domain-specific, and often privacy-sensitive. We developed a locally deployable framework that enables small language models to self-generate, verify, refine, and evaluate entity-specific prompts for extracting multiple clinical entities from dental notes. Using 1,200 annotated notes, we evaluated candidate open-weight models with multi-prompt ensemble inference and further adapted selected models using QLoRA-based supervised fine-tuning and direct preference optimization. Model performance varied substantially, highlighting the need for task-specific evaluation rather than reliance on generic benchmarks. Qwen2.5-14B-Instruct achieved the strongest baseline performance. After DPO, Qwen2.5-14B-Instruct and Llama-3.1-8B-Instruct achieved micro/macro F1 scores of 0.864/0.837 and 0.806/0.797, respectively. These findings suggest that automated prompt optimization combined with lightweight preference-based post-training can support scalable clinical information extraction using locally deployed small language models.
- Abstract(参考訳): ドキュメントは極めて非構造化であり、ドメイン固有であり、しばしばプライバシーに敏感である。
歯科用ノートから複数の臨床エンティティを抽出するための,エンティティ固有のプロンプトを自己生成し,検証し,洗練し,評価するための,局所展開可能なフレームワークを開発した。
1200の注釈付きノートを用いて、マルチプロンプトアンサンブル推論による候補オープンウェイトモデルの評価と、QLoRAに基づく教師付き微調整と直接選好最適化を用いて、さらに適応された選択モデルについて検討した。
モデルの性能は大幅に変化し、一般的なベンチマークに依存するのではなく、タスク固有の評価の必要性を強調した。
Qwen2.5-14B-Instructは最強のベースライン性能を達成した。
DPOの後、Qwen2.5-14B-InstructとLlama-3.1-8B-Instructはそれぞれ0.864/0.837と0.806/0.797のマイクロ/マクロF1スコアを達成した。
これらの結果から,軽量な嗜好に基づくポストトレーニングを併用した自動プロンプト最適化は,局所的に展開された小言語モデルを用いて,スケーラブルな臨床情報抽出を支援することが示唆された。
関連論文リスト
- AgentScore: Autoformulation of Deployable Clinical Scoring Systems [45.88028371034407]
本稿では,単位重み付き臨床チェックリストのセマンティックガイドによる最適化を行うAgentScoreを紹介する。
AgentScoreは既存のスコア生成方法より優れており、より柔軟な解釈可能なモデルに匹敵するAUCを実現している。
さらに2つの外部検証タスクにおいて、AgentScoreは、確立されたガイドラインベースのスコアよりも高い差別を達成する。
論文 参考訳(メタデータ) (2026-01-29T21:11:06Z) - CNSight: Evaluation of Clinical Note Segmentation Tools [3.673249612734457]
また,MIMIC-IVから得られた1000音符のキュレートデータセットを用いて,ルールベースベースベースライン,ドメイン固有トランスフォーマーモデル,および臨床ノートセグメンテーションのための大規模言語モデルの評価を行った。
GPT-5-miniは文レベルと自由テキストセグメンテーションで平均72.4のF1に達する。
論文 参考訳(メタデータ) (2025-12-28T05:40:15Z) - CLINICSUM: Utilizing Language Models for Generating Clinical Summaries from Patient-Doctor Conversations [2.77462589810782]
クリニックサムは、患者と医師の会話から臨床要約を自動的に生成するように設計されたフレームワークである。
自動測定(ROUGE、BERTScoreなど)と専門家による評価によって評価される。
論文 参考訳(メタデータ) (2024-12-05T15:34:02Z) - ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks [37.544994716002016]
LLM(Large Language Models)は、医学においてますます普及している。
しかし, 臨床診断における有用性は未評価のままである。
本研究は,15のGPTスタイルのLCM,5つのBERTスタイルのモデル,11の従来手法をベンチマークすることによって,この問題に対処する。
論文 参考訳(メタデータ) (2024-07-26T06:09:10Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Med7: a transferable clinical natural language processing model for
electronic health records [6.935142529928062]
本稿では,臨床自然言語処理のための匿名認識モデルを提案する。
このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。
本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
論文 参考訳(メタデータ) (2020-03-03T00:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。