論文の概要: RedactOR: An LLM-Powered Framework for Automatic Clinical Data De-Identification
- arxiv url: http://arxiv.org/abs/2505.18380v1
- Date: Fri, 23 May 2025 21:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.381486
- Title: RedactOR: An LLM-Powered Framework for Automatic Clinical Data De-Identification
- Title(参考訳): Redactor: 自動臨床データ同定のためのLLMフレームワーク
- Authors: Praphul Singh, Charlotte Dzialo, Jangwon Kim, Sumana Srivatsa, Irfan Bulu, Sri Gadde, Krishnaram Kenthapadi,
- Abstract要約: 構造化および非構造化の電子健康記録を識別するための完全に自動化されたフレームワークであるRedactorを提案する。
当社のフレームワークでは,インテリジェントルーティングやハイブリッドルール,LLMベースのアプローチなど,コスト効率の高いDe-ID戦略を採用している。
本稿では,保護されたエンティティの一貫した置換を保証するために,検索に基づくエンティティリラクシゼーション手法を提案する。
- 参考スコア(独自算出の注目度): 10.378433440829712
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Ensuring clinical data privacy while preserving utility is critical for AI-driven healthcare and data analytics. Existing de-identification (De-ID) methods, including rule-based techniques, deep learning models, and large language models (LLMs), often suffer from recall errors, limited generalization, and inefficiencies, limiting their real-world applicability. We propose a fully automated, multi-modal framework, RedactOR for de-identifying structured and unstructured electronic health records, including clinical audio records. Our framework employs cost-efficient De-ID strategies, including intelligent routing, hybrid rule and LLM based approaches, and a two-step audio redaction approach. We present a retrieval-based entity relexicalization approach to ensure consistent substitutions of protected entities, thereby enhancing data coherence for downstream applications. We discuss key design desiderata, de-identification and relexicalization methodology, and modular architecture of RedactX and its integration with the Oracle Health Clinical AI system. Evaluated on the i2b2 2014 De-ID dataset using standard metrics with strict recall, our approach achieves competitive performance while optimizing token usage to reduce LLM costs. Finally, we discuss key lessons and insights from deployment in real-world AI- driven healthcare data pipelines.
- Abstract(参考訳): ユーティリティを保ちながら臨床データのプライバシを確保することは、AI駆動のヘルスケアとデータ分析にとって重要である。
ルールベースの手法、ディープラーニングモデル、大規模言語モデル(LLM)を含む既存の非識別(De-ID)手法は、しばしばリコールエラー、一般化の制限、非効率に悩まされ、現実の応用性が制限される。
完全自動化されたマルチモーダル・フレームワークであるRedactorを提案し,臨床オーディオ記録を含む構造化および非構造化の電子健康記録を同定する。
当社のフレームワークでは,インテリジェントルーティングやハイブリッドルール,LLMベースのアプローチ,2段階の音声再生アプローチなど,コスト効率の高いDe-ID戦略を採用している。
本稿では,保護されたエンティティの一貫性を保ち,下流アプリケーションにおけるデータの一貫性を向上させるために,検索に基づくエンティティのリラクシゼーション手法を提案する。
我々はRedactXのアーキテクチャとOracle Health Clinical AIシステムとの統合について論じる。
厳密なリコールを伴う標準メトリクスを用いたi2b2 2014 De-IDデータセットに基づいて評価し,トークン使用率を最適化してLCMコストを削減することで,競合性能を実現する。
最後に、現実のAI駆動型ヘルスケアデータパイプラインにおけるデプロイメントからの重要な教訓と洞察について論じる。
関連論文リスト
- TrialMatchAI: An End-to-End AI-powered Clinical Trial Recommendation System to Streamline Patient-to-Trial Matching [0.0]
本稿では,患者間マッチングを自動化するAIを利用したレコメンデーションシステムTrialMatchAIを提案する。
微調整されたオープンソースの大規模言語モデルに基づいて構築されたTrialMatchAIは、透明性を確保し、軽量なデプロイメントフットプリントを維持する。
現実のバリデーションでは、腫瘍学患者の92%が、少なくとも1つの関連するトライアルを、トップ20のレコメンデーションで回収した。
論文 参考訳(メタデータ) (2025-05-13T12:39:06Z) - Semantic Integrity Constraints: Declarative Guardrails for AI-Augmented Data Processing Systems [39.23499993745249]
セマンティック・インテリティ・制約(SIC)を導入し、AI拡張データ処理システム内の意味演算子を制御・最適化する。
SICはリレーショナルモデルにシームレスに統合され、ユーザーは制約の共通クラスを指定できる。
我々の研究は、信頼できる高性能なAIデータ処理のための基盤となるフレームワークとしてSICを確立している。
論文 参考訳(メタデータ) (2025-03-01T19:59:25Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
2つの重要な特徴を持つ新しいRECデータセットを導入する。第一に、オブジェクトカテゴリ、属性、関係性に関する詳細な推論を必要とする、制御可能な難易度で設計されている。
第二に、微粒な編集によって生成された否定的なテキストと画像が組み込まれ、既存のターゲットを拒否するモデルの能力を明示的にテストする。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。
TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - DeIDClinic: A Multi-Layered Framework for De-identification of Clinical Free-text Data [6.473402241020136]
本研究は,臨床テキストを微調整した深層学習モデルであるCeriorBERTを統合することにより,MASKフレームワークを強化する。
このシステムは、臨床文書内の機密性のある実体を効果的に識別し、再認識するか、置き換える。
リスク評価機能も開発され、文書内のコンテキストのユニークさを分析してリスクレベルに分類する。
論文 参考訳(メタデータ) (2024-10-02T15:16:02Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。