論文の概要: Local Obfuscation by GLINER for Impartial Context Aware Lineage: Development and evaluation of PII Removal system
- arxiv url: http://arxiv.org/abs/2510.19346v1
- Date: Wed, 22 Oct 2025 08:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.341739
- Title: Local Obfuscation by GLINER for Impartial Context Aware Lineage: Development and evaluation of PII Removal system
- Title(参考訳): GLINERによる局所難読化 : PII除去システムの開発と評価
- Authors: Prakrithi Shivaprakash, Lekhansh Shukla, Animesh Mukherjee, Prabhat Chand, Pratima Murthy,
- Abstract要約: LOGICALは、GLiNERモデルに基づいて開発された、効率的でローカルにデプロイ可能なPII除去システムである。
微調整のGLiNERモデルは、全体的なマイクロ平均F1スコア0.980で優れた性能を達成した。
LOGicalは95%の文書を正しく衛生し、次のベストソリューションは64%だった。
- 参考スコア(独自算出の注目度): 3.823253824850948
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Removing Personally Identifiable Information (PII) from clinical notes in Electronic Health Records (EHRs) is essential for research and AI development. While Large Language Models (LLMs) are powerful, their high computational costs and the data privacy risks of API-based services limit their use, especially in low-resource settings. To address this, we developed LOGICAL (Local Obfuscation by GLINER for Impartial Context-Aware Lineage), an efficient, locally deployable PII removal system built on a fine-tuned Generalist and Lightweight Named Entity Recognition (GLiNER) model. We used 1515 clinical documents from a psychiatric hospital's EHR system. We defined nine PII categories for removal. A modern-gliner-bi-large-v1.0 model was fine-tuned on 2849 text instances and evaluated on a test set of 376 instances using character-level precision, recall, and F1-score. We compared its performance against Microsoft Azure NER, Microsoft Presidio, and zero-shot prompting with Gemini-Pro-2.5 and Llama-3.3-70B-Instruct. The fine-tuned GLiNER model achieved superior performance, with an overall micro-average F1-score of 0.980, significantly outperforming Gemini-Pro-2.5 (F1-score: 0.845). LOGICAL correctly sanitised 95% of documents completely, compared to 64% for the next-best solution. The model operated efficiently on a standard laptop without a dedicated GPU. However, a 2% entity-level false negative rate underscores the need for human-in-the-loop validation across all tested systems. Fine-tuned, specialised transformer models like GLiNER offer an accurate, computationally efficient, and secure solution for PII removal from clinical notes. This "sanitisation at the source" approach is a practical alternative to resource-intensive LLMs, enabling the creation of de-identified datasets for research and AI development while preserving data privacy, particularly in resource-constrained environments.
- Abstract(参考訳): 電子健康記録(EHR)における臨床ノートからの個人識別情報(PII)の除去は,研究とAI開発に不可欠である。
大きな言語モデル(LLM)は強力だが、その高い計算コストとAPIベースのサービスのデータプライバシリスクは、特に低リソース環境での使用を制限する。
そこで我々は,GLiNERモデルとジェネラリストを用いたPII除去システムであるLOGICAL (Local Obfuscation by GLINER for Impartial Context-Aware Lineage)を開発した。
精神科病院の EHR システムから1515件の臨床資料を使用した。
除去には9つのPIIカテゴリーを定義した。
現代のグリナー・ビラージュv1.0モデルは2849のテキストインスタンスで微調整され、文字レベルの精度、リコール、F1スコアを用いて376のインスタンスのテストセットで評価された。
私たちは、パフォーマンスをMicrosoft Azure NER、Microsoft Presidio、ゼロショットプロンプトとGemini-Pro-2.5、Llama-3.3-70B-Instructと比較した。
微調整のGLiNERモデルは、全体的なマイクロ平均F1スコアが0.980であり、Gemini-Pro-2.5(F1スコア:0.845)を大幅に上回った。
LOGicalは95%の文書を正しく衛生し、次のベストソリューションは64%だった。
モデルは専用のGPUを使わずに、標準のラップトップで効率的に動作した。
しかしながら、2%のエンティティレベルの偽陰性率は、すべてのテストシステムにまたがるヒューマン・イン・ザ・ループの検証の必要性を浮き彫りにしている。
GLiNERのような微調整された特殊なトランスモデルは、臨床ノートからPIIを除去するための正確で、計算効率が良く、セキュアなソリューションを提供する。
この"ソースへの衛生"アプローチは、特にリソース制約のある環境で、データのプライバシを保ちながら、調査とAI開発のための識別されていないデータセットの作成を可能にする、リソース集約型LLMの実践的な代替手段である。
関連論文リスト
- U-Mamba2-SSL for Semi-Supervised Tooth and Pulp Segmentation in CBCT [44.3806898357896]
U-Mamba2-SSLは,U-Mamba2モデル上に構築され,多段階の学習戦略を用いる,新しい半教師付き学習フレームワークである。
U-Mamba2-SSLは平均スコア0.789、DSC0.917を隠しテストセットで達成し、STSR 2025のタスク1で1位となった。
論文 参考訳(メタデータ) (2025-09-24T14:19:33Z) - Enhanced Predictive Modeling for Hazardous Near-Earth Object Detection: A Comparative Analysis of Advanced Resampling Strategies and Machine Learning Algorithms in Planetary Risk Assessment [0.0]
本研究では,二元分類フレームワークによる有害地球近傍天体(NEO)の予測のための機械学習モデルの性能評価を行った。
RFC と GBC はともに 0.987 と 0.896 の印象的な F2 スコアで最高の性能を発揮した。
論文 参考訳(メタデータ) (2025-08-20T22:50:00Z) - QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。
しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。
本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文 参考訳(メタデータ) (2025-05-30T03:51:06Z) - Accelerating Clinical NLP at Scale with a Hybrid Framework with Reduced GPU Demands: A Case Study in Dementia Identification [0.12369842801624054]
本稿では,ルールベースのフィルタリング,サポートベクトルマシン(SVM)分類器,BERTモデルを統合するハイブリッドNLPフレームワークを提案する。
我々はこの枠組みを、重篤な高血圧を持つ490万人の退役軍人の認知症鑑定ケーススタディに応用し、210億の臨床記録を分析した。
論文 参考訳(メタデータ) (2025-04-16T21:24:38Z) - VAE-based Feature Disentanglement for Data Augmentation and Compression in Generalized GNSS Interference Classification [42.14439854721613]
干渉の正確な分類を可能にする重要な潜伏特徴を抽出するために, アンタングル化のための変分オートエンコーダ (VAE) を提案する。
提案するVAEは512から8,192の範囲のデータ圧縮率を実現し,99.92%の精度を実現している。
論文 参考訳(メタデータ) (2025-04-14T13:38:00Z) - Beyond Negation Detection: Comprehensive Assertion Detection Models for Clinical NLP [5.297964922424743]
我々は最先端のアサーション検出モデルを開発する。
我々はこれらのモデルを,クラウドベースの商用APIソリューション,レガシルールベースのNegExアプローチ,GPT-4oに対して評価する。
論文 参考訳(メタデータ) (2025-03-21T10:18:47Z) - Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise [14.052630186550628]
プロセス教師付き報酬モデル(PRM)は、数学やコーディングといった分野において、大きな言語モデル(LLM)の出力に対してステップバイステップの検証を提供する。
LLM作成臨床ノートに段階的な報酬信号を提供するために,PRMを訓練するための新しい枠組みを導入する。
論文 参考訳(メタデータ) (2024-12-17T06:24:34Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。