論文の概要: LLMs-in-the-Loop Part 2: Expert Small AI Models for Anonymization and De-identification of PHI Across Multiple Languages
- arxiv url: http://arxiv.org/abs/2412.10918v1
- Date: Sat, 14 Dec 2024 18:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:47.970069
- Title: LLMs-in-the-Loop Part 2: Expert Small AI Models for Anonymization and De-identification of PHI Across Multiple Languages
- Title(参考訳): LLMs-in-the-Loop Part 2: 複数言語間のPHIの匿名化と非識別のためのエキスパート・スモールAIモデル
- Authors: Murat Gunay, Bunyamin Keles, Raife Hizlan,
- Abstract要約: 本稿では、LLM-in-the-loop法を用いて開発された専門的な小型AIモデルを紹介し、ドメイン固有非識別NERモデルの需要を満たす。
NERモデルは8言語で開発され、それぞれ0.966, 0.975, 0.976, 0.970, 0.964, 0.974, 0.978, 0.953のf1-microスコア平均を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rise of chronic diseases and pandemics like COVID-19 has emphasized the need for effective patient data processing while ensuring privacy through anonymization and de-identification of protected health information (PHI). Anonymized data facilitates research without compromising patient confidentiality. This paper introduces expert small AI models developed using the LLM-in-the-loop methodology to meet the demand for domain-specific de-identification NER models. These models overcome the privacy risks associated with large language models (LLMs) used via APIs by eliminating the need to transmit or store sensitive data. More importantly, they consistently outperform LLMs in de-identification tasks, offering superior performance and reliability. Our de-identification NER models, developed in eight languages (English, German, Italian, French, Romanian, Turkish, Spanish, and Arabic) achieved f1-micro score averages of 0.966, 0.975, 0.976, 0.970, 0.964, 0.974, 0.978, and 0.953 respectively. These results establish them as the most accurate healthcare anonymization solutions, surpassing existing small models and even general-purpose LLMs such as GPT-4o. While Part-1 of this series introduced the LLM-in-the-loop methodology for bio-medical document translation, this second paper showcases its success in developing cost-effective expert small NER models in de-identification tasks. Our findings lay the groundwork for future healthcare AI innovations, including biomedical entity and relation extraction, demonstrating the value of specialized models for domain-specific challenges.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)などの慢性疾患やパンデミックの台頭は、患者データ処理の効果的な必要性を強調しつつ、保護された健康情報(PHI)の匿名化と非識別化を通じてプライバシーを確保している。
匿名化されたデータは、患者の機密性を損なうことなく研究を促進する。
本稿では、LLM-in-the-loop法を用いて開発された専門的な小型AIモデルを紹介し、ドメイン固有非識別NERモデルの需要を満たす。
これらのモデルは、機密データを送信または保存する必要をなくし、APIを介して使用される大きな言語モデル(LLM)に関連するプライバシーリスクを克服する。
さらに重要なのは、LLMを非識別タスクで一貫して上回り、優れたパフォーマンスと信頼性を提供します。
NERモデルは8言語(英語、ドイツ語、イタリア語、フランス語、ルーマニア語、トルコ語、スペイン語、アラビア語)で開発され、それぞれ0.966, 0.975, 0.976, 0.970, 0.964, 0.974, 0.978, 0.953のf1-microスコア平均を達成した。
これらの結果は、既存の小さなモデルや、GPT-4oのような汎用LLMを超越した、最も正確な医療匿名化ソリューションとして確立されている。
本シリーズのパート1では, バイオメディカル文書翻訳のためのLLM-in-the-loop手法を導入し, コスト効率の高い小型NERモデルの開発に成功したことを示す。
我々の発見は、バイオメディカルエンティティや関係抽出など、将来の医療AIイノベーションの基盤となり、ドメイン固有の課題に対する専門モデルの価値を実証した。
関連論文リスト
- Eir: Thai Medical Large Language Models [0.0]
Eir-8Bは、タイ語での医療タスクの処理精度を高めるために設計された80億のパラメータを持つ大規模な言語モデルである。
人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。
モデルは病院の内部ネットワーク内に展開され、高いセキュリティと高速な処理速度が保証される。
論文 参考訳(メタデータ) (2024-09-13T04:06:00Z) - LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文 参考訳(メタデータ) (2024-07-16T19:32:23Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Empowering Healthcare through Privacy-Preserving MRI Analysis [3.6394715554048234]
本稿では,Ensemble-Based Federated Learning (EBFL)フレームワークを紹介する。
EBFLフレームワークは、機密性の高い患者データを共有することよりも、モデルの特徴を強調することによって、従来のアプローチから逸脱する。
グリオーマ,髄膜腫,下垂体,非腫瘍例などの脳腫瘍の分類において,有意な精度が得られた。
論文 参考訳(メタデータ) (2024-03-14T19:51:18Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。