論文の概要: Towards Fair and Efficient De-identification: Quantifying the Efficiency and Generalizability of De-identification Approaches
- arxiv url: http://arxiv.org/abs/2602.15869v1
- Date: Tue, 27 Jan 2026 17:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.675489
- Title: Towards Fair and Efficient De-identification: Quantifying the Efficiency and Generalizability of De-identification Approaches
- Title(参考訳): 公平かつ効率的な非識別に向けて--非識別アプローチの効率性と一般化可能性の定量化
- Authors: Noopur Zambare, Kiana Aghakasiri, Carissa Lin, Carrie Ye, J. Ross Mitchell, Mohamed Abdalla,
- Abstract要約: 大規模言語モデル (LLM) は, 臨床診断において高い性能を示した。
これまでの研究では、形式、文化、性別間の一般化性について調べられていない。
より小さなモデルでは、推論コストを大幅に削減しながら、同等のパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 1.5908659534802851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown strong performance on clinical de-identification, the task of identifying sensitive identifiers to protect privacy. However, previous work has not examined their generalizability between formats, cultures, and genders. In this work, we systematically evaluate fine-tuned transformer models (BERT, ClinicalBERT, ModernBERT), small LLMs (Llama 1-8B, Qwen 1.5-7B), and large LLMs (Llama-70B, Qwen-72B) at de-identification. We show that smaller models achieve comparable performance while substantially reducing inference cost, making them more practical for deployment. Moreover, we demonstrate that smaller models can be fine-tuned with limited data to outperform larger models in de-identifying identifiers drawn from Mandarin, Hindi, Spanish, French, Bengali, and regional variations of English, in addition to gendered names. To improve robustness in multi-cultural contexts, we introduce and publicly release BERT-MultiCulture-DEID, a set of de-identification models based on BERT, ClinicalBERT, and ModernBERT, fine-tuned on MIMIC with identifiers from multiple language variants. Our findings provide the first comprehensive quantification of the efficiency-generalizability trade-off in de-identification and establish practical pathways for fair and efficient clinical de-identification. Details on accessing the models are available at: https://doi.org/10.5281/zenodo.18342291
- Abstract(参考訳): 大規模言語モデル(LLM)は、プライバシを保護するために機密識別子を識別するタスクである臨床的非識別に強いパフォーマンスを示している。
しかし、これまでの研究では、形式、文化、性別間の一般化性については検討されていない。
本研究では, 微調整変圧器モデル (BERT, ClinicalBERT, ModernBERT) と小型LLM (Llama 1-8B, Qwen 1.5-7B) と大型LLM (Llama-70B, Qwen-72B) を非同定時に系統的に評価した。
より小さなモデルでは、推論コストを大幅に削減しつつ、同等のパフォーマンスを実現し、デプロイをより実用的であることを示す。
さらに,マンダリン,ヒンディー語,スペイン語,フレンチ,ベンガル語,および英語の地域的バリエーションから抽出した識別識別子の同定において,より大規模なモデルよりも優れた性能を示すために,限られたデータでより小さなモデルを微調整できることを実証した。
多文化的文脈におけるロバスト性を改善するため, BERT, ClinicalBERT, ModernBERTに基づく非識別モデルであるBERT-MultiCulture-DEIDを導入・公開する。
本研究は, 自己鑑定における効率汎化可能性トレードオフの包括的定量化と, 公平かつ効率的な臨床鑑定のための実践的経路を確立することを目的としたものである。
モデルへのアクセスの詳細は、https://doi.org/10.5281/zenodo.18342291で確認できる。
関連論文リスト
- Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - LLMs-in-the-Loop Part 2: Expert Small AI Models for Anonymization and De-identification of PHI Across Multiple Languages [0.0]
本稿では、LLM-in-the-loop法を用いて開発された専門的な小型AIモデルを紹介し、ドメイン固有非識別NERモデルの需要を満たす。
NERモデルは8言語で開発され、それぞれ0.966, 0.975, 0.976, 0.970, 0.964, 0.974, 0.978, 0.953のf1-microスコア平均を達成した。
論文 参考訳(メタデータ) (2024-12-14T18:10:29Z) - DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - BERT-LID: Leveraging BERT to Improve Spoken Language Identification [12.179375898668614]
言語識別とは、音声セグメントによって伝達される言語の同一性を自動的に判定するタスクである。
中・長期間の発話において高い精度で言語識別が達成されているにもかかわらず、短い発話のパフォーマンスはまだまだ満足できない。
本稿では,BERTに基づく言語識別システム(BERT-LID)を提案する。
論文 参考訳(メタデータ) (2022-03-01T10:01:25Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。