論文の概要: A Late-Fusion Multimodal AI Framework for Privacy-Preserving Deduplication in National Healthcare Data Environments
- arxiv url: http://arxiv.org/abs/2603.04595v1
- Date: Wed, 04 Mar 2026 20:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.97447
- Title: A Late-Fusion Multimodal AI Framework for Privacy-Preserving Deduplication in National Healthcare Data Environments
- Title(参考訳): 国家医療データ環境におけるプライバシ保護のための後期型マルチモーダルAIフレームワーク
- Authors: Mohammed Omer Shakeel Ahmed,
- Abstract要約: 機密情報に依存しない新しい,スケーラブルでマルチモーダルなAIフレームワークを提案する。
このアプローチは、エンティティ解決に対するプライバシ準拠のソリューションを提供し、セキュアなデジタルインフラストラクチャをサポートし、公衆衛生分析の信頼性を高める。
国家の健康データモダナイゼーションへの統合には適しており、プライバシ優先のイノベーションというより広範な目標に合わせている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Duplicate records pose significant challenges in customer relationship management (CRM)and healthcare, often leading to inaccuracies in analytics, impaired user experiences, and compliance risks. Traditional deduplication methods rely heavily on direct identifiers such as names, emails, or Social Security Numbers (SSNs), making them ineffective under strict privacy regulations like GDPR and HIPAA, where such personally identifiable information (PII) is restricted or masked. In this research, I propose a novel, scalable, multimodal AI framework for detecting duplicates without depending on sensitive information. This system leverages three distinct modalities: semantic embeddings derived from textual fields (names, cities) using pre-trained DistilBERT models, behavioral patterns extracted from user login timestamps, and device metadata encoded through categorical embeddings. These heterogeneous modalities are combined using a late fusion approach and clustered via DBSCAN, an unsupervised density-based algorithm. This proposed model is evaluated against a traditional string-matching baseline on a synthetic CRM dataset specifically designed to reflect privacy-preserving constraints. The multimodal framework demonstrated good performance, achieving a good F1-score by effectively identifying duplicates despite variations and noise inherent in the data. This approach offers a privacy-compliant solution to entity resolution and supports secure digital infrastructure, enhances the reliability of public health analytics, and promotes ethical AI adoption across government and enterprise settings. It is well-suited for integration into national health data modernization efforts, aligning with broader goals of privacy-first innovation.
- Abstract(参考訳): 重複レコードは、顧客関係管理(CRM)とヘルスケアにおいて重大な課題を引き起こし、多くの場合、分析、障害のあるユーザエクスペリエンス、コンプライアンスリスクの不正確さにつながる。
従来の重複防止法は、名前、電子メール、社会保障番号(SSN)などの直接的な識別子に大きく依存しており、GDPRやHIPAAのような厳格なプライバシー規制の下では有効ではない。
本研究では,機密情報に依存しない新しい,スケーラブルでマルチモーダルなAIフレームワークを提案する。
このシステムは、事前訓練されたDistilBERTモデルを使用したテキストフィールド(名前、都市)から派生したセマンティック埋め込み、ユーザのログインタイムスタンプから抽出された振る舞いパターン、カテゴリの埋め込みによって符号化されたデバイスメタデータの3つの異なるモードを利用する。
これらの不均一なモダリティは、後期融合法を用いて組み合わせられ、教師なし密度に基づくアルゴリズムであるDBSCANを介してクラスタ化される。
提案モデルは,プライバシ保護制約を反映した合成CRMデータセット上で,従来の文字列マッチングベースラインに対して評価される。
マルチモーダル・フレームワークは優れた性能を示し、データ固有のバリエーションやノイズにもかかわらず、効果的に重複を識別し、優れたF1スコアを達成する。
このアプローチは、エンティティ解決に対するプライバシ準拠のソリューションを提供し、セキュアなデジタルインフラストラクチャをサポートし、公衆衛生分析の信頼性を高め、政府と企業間の倫理的AI採用を促進する。
国家の健康データモダナイゼーションへの統合には適しており、プライバシ優先のイノベーションというより広範な目標に合わせている。
関連論文リスト
- SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。
大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。
しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文 参考訳(メタデータ) (2025-09-18T03:57:50Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting [17.294176570269]
本稿では,複合報酬関数を用いた大規模言語モデル(LLM)を微調整する強化学習フレームワークを提案する。
プライバシ報酬は、セマンティックキューと、潜伏表現上の最小スパンニングツリー(MST)から派生した構造パターンを組み合わせる。
実験の結果,提案手法はセマンティック品質を劣化させることなく,著者の難読化とプライバシーの指標を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T04:38:19Z) - Differentially Private Relational Learning with Entity-level Privacy Guarantees [17.567309430451616]
本研究は,形式的エンティティレベルDP保証を用いた関係学習の原則的枠組みを提案する。
本稿では,実体発生頻度に基づいてクリッピング閾値を変調する適応的勾配クリッピング方式を提案する。
これらの貢献により、プライバシー保証が保証されたリレーショナルデータに対して、DP-SGDの修正版が提供される。
論文 参考訳(メタデータ) (2025-06-10T02:03:43Z) - RedactOR: An LLM-Powered Framework for Automatic Clinical Data De-Identification [10.378433440829712]
構造化および非構造化の電子健康記録を識別するための完全に自動化されたフレームワークであるRedactorを提案する。
当社のフレームワークでは,インテリジェントルーティングやハイブリッドルール,LLMベースのアプローチなど,コスト効率の高いDe-ID戦略を採用している。
本稿では,保護されたエンティティの一貫した置換を保証するために,検索に基づくエンティティリラクシゼーション手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T21:13:18Z) - Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - PriRoAgg: Achieving Robust Model Aggregation with Minimum Privacy Leakage for Federated Learning [49.916365792036636]
フェデレートラーニング(FL)は、大規模分散ユーザデータを活用する可能性から、最近大きな勢いを増している。
送信されたモデル更新は、センシティブなユーザ情報をリークする可能性があり、ローカルなトレーニングプロセスの集中的な制御の欠如は、モデル更新に対する悪意のある操作の影響を受けやすいグローバルモデルを残します。
我々は、Lagrange符号化計算と分散ゼロ知識証明を利用した汎用フレームワークPriRoAggを開発し、集約されたプライバシを満たすとともに、幅広いロバストな集約アルゴリズムを実行する。
論文 参考訳(メタデータ) (2024-07-12T03:18:08Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control [3.8811062755861956]
$epsilon$-PrivateSMOTEは、再識別とリンケージ攻撃を防ぐためのテクニックである。
提案手法は,ノイズに起因した逆数による合成データ生成と,高リスクケースを難読化するための差分プライバシー原則を組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-01T13:20:37Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。