論文の概要: Selective Token-Level Cryptographic Redaction for Privacy-Preserving Clinical Deployment of Large Language Models
- arxiv url: http://arxiv.org/abs/2606.03399v1
- Date: Tue, 02 Jun 2026 09:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.913817
- Title: Selective Token-Level Cryptographic Redaction for Privacy-Preserving Clinical Deployment of Large Language Models
- Title(参考訳): 大規模言語モデルのプライバシ保護のための選択的トークンレベル暗号リアクション
- Authors: Farhan Sheth, Ziyuan Yang, Yongying Lan, Si Yong Yeo,
- Abstract要約: 適応言語分解(Healthcare Encryption and Redaction)について紹介する。
HERALDは、機密トークンのみを暗号化することで、このバランスを達成するために設計されたトークンレベルの暗号リアクションフレームワークである。
HERALDはクライアント側で完全に動作し、機密性の高いコンテンツがストレージ、送信、処理を通して暗号化されることを保証する。
- 参考スコア(独自算出の注目度): 3.778748954952557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) are increasingly used for clinical applications, many existing pipelines require sending raw sensitive health information to remote servers for processing, which heightens the risk of privacy leakage. A natural approach to mitigate this risk is to encrypt the data before transmission. However, straightforward solutions such as encrypting the entire dataset introduce prohibitive computational, alignment, and communication overheads, rendering large-scale practical deployment infeasible. To preserve privacy while maintaining usability, we present Healthcare Encryption & Redaction via Adaptive Linguistic Decomposition (HERALD), a token-level cryptographic redaction framework designed to achieve this balance by encrypting only sensitive tokens while preserving the surrounding context for downstream model utility. HERALD combines medical named-entity recognizer (NER) with part-of-speech (POS) driven policies to select candidate tokens, performs targeted lemmatization to stabilize surface forms, and substitutes each protected token with a deterministic ciphertext wrapped in explicit delimiters. Notably, HERALD is model-agnostic and operates entirely on the client side, ensuring that sensitive content remains encrypted throughout storage, transmission, and processing without requiring changes to downstream models. We evaluated HERALD on both classification and medical question answering (MQA) tasks on public datasets. Across different tasks, experiments illustrate that fully secured baselines suffer significant utility loss, whereas HERALD consistently recovers performance close to plaintext. Overall, HERALD provides a novel utilization pipeline.
- Abstract(参考訳): 大きな言語モデル(LLM)が臨床応用にますます使われているが、多くの既存のパイプラインでは、処理のためにリモートサーバに生の機密情報を送信する必要があるため、プライバシリークのリスクが高まる。
このリスクを軽減するための自然なアプローチは、送信前にデータを暗号化することだ。
しかし、データセット全体を暗号化するといった簡単なソリューションは、計算の禁止、アライメント、通信のオーバーヘッドを導入し、大規模な実践的なデプロイメントを不可能にする。
ユーザビリティを維持しながらプライバシを維持するために、ダウンストリームモデルユーティリティの周囲のコンテキストを維持しながら、機密トークンのみを暗号化してこのバランスを達成するために設計されたトークンレベルの暗号リアクションフレームワークである、Adaptive Linguistic Decomposition (HERALD)によるヘルスケア暗号化とリアクションを提示する。
HERALDは、医療名義認識器(NER)とPOS(Part-of-speech)駆動のポリシーを組み合わせて、候補トークンを選択し、表面形状を安定させるために目標の補間を行い、各保護トークンを、明示的なデリミタでラップされた決定論的暗号文で置換する。
特に、HERALDはモデルに依存しず、クライアント側で完全に動作し、ダウンストリームモデルの変更を必要とせずに、ストレージ、送信、処理を通して機密コンテンツが暗号化されることを保証する。
我々は、公開データセット上のMQAタスクの分類と医学的質問応答の両面でHERALDを評価した。
さまざまなタスクにおいて、完全にセキュアなベースラインが大きなユーティリティ損失を被っているのに対して、HERALDは平文に近いパフォーマンスを継続的に回復している。
全体として、HERALDは新たな利用パイプラインを提供する。
関連論文リスト
- Training Machine Learning Models on Encrypted Data: A Privacy-Preserving Framework using Homomorphic Encryption [40.16348991707144]
同型暗号化は、復号化せずに暗号化されたデータの計算を可能にし、機械学習パイプライン全体の機密性を保存する。
本稿では、精度と効率を保ちながら、暗号化データ上でMLモデルをトレーニングするという課題に対処する。
K-Nearest Neighbors(KNN)と線形回帰モデルを暗号化データ上でトレーニングし、基本的マルチレイヤパーセプトロン(MLP)アーキテクチャの暗号化推論を評価する。
論文 参考訳(メタデータ) (2026-04-25T10:50:41Z) - Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text [0.42821598129654453]
テキストを匿名化するLLM駆動置換パイプラインをオンプレミスで開発する。
プライバシー、セマンティックユーティリティ、およびプライバシー下でのトレーサビリティを測定します。
提案手法は,最先端のプライバシ,トピックドリフトの最小化,実効性の向上,トレーニング可能性の低下を実現する。
論文 参考訳(メタデータ) (2026-03-17T23:46:15Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - A high-capacity linguistic steganography based on entropy-driven rank-token mapping [81.29800498695899]
言語ステガノグラフィーは、秘密のメッセージを無害なテキストに埋め込むことによって、秘密のコミュニケーションを可能にする。
従来の修正ベースの手法は検出可能な異常を導入し、検索ベースの戦略は埋め込み能力の低下に悩まされている。
本稿では、ランクベース適応符号化と文脈認識の圧縮を正規化エントロピーと統合したRTMStegaというエントロピー駆動のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:02:47Z) - Semantic Encryption: Secure and Effective Interaction with Cloud-based Large Language Models via Semantic Transformation [35.137599131314296]
クラウドベースの大規模言語モデル(CLLM)は、ユーザインタラクション中のデータのプライバシに関する重要な懸念を提起している。
本稿では,プライバシとユーティリティの両方を維持するために設計されたセマンティック暗号化(SE)のプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-03T07:54:40Z) - HOPE: Homomorphic Order-Preserving Encryption for Outsourced Databases -- A Stateless Approach [0.7770535067924795]
Homomorphic OPE(Homomorphic OPE)は、クライアント側のストレージを排除し、クエリ実行中に追加のクライアントサーバ間のインタラクションを回避する新しいOPEスキームである。
我々は、広く受け入れられているIND-OCPAモデルの下で、HOPEの正式な暗号解析を行い、その安全性を証明した。
論文 参考訳(メタデータ) (2024-11-26T00:38:46Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Reinforcement Learning on Encrypted Data [58.39270571778521]
本稿では,DQNエージェントが,離散的かつ連続的な状態空間を持つ環境でどのように動作するかを予備的,実験的に検討する。
その結果,非決定論的暗号が存在する場合でも,エージェントは依然として小さな状態空間で学習することができるが,より複雑な環境では性能が低下することがわかった。
論文 参考訳(メタデータ) (2021-09-16T21:59:37Z) - CryptoSPN: Privacy-preserving Sum-Product Network Inference [84.88362774693914]
総生産ネットワーク(SPN)のプライバシ保護のためのフレームワークを提案する。
CryptoSPNは、中規模のSPNに対して秒の順序で高効率で正確な推論を行う。
論文 参考訳(メタデータ) (2020-02-03T14:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。