論文の概要: Anonymization by Design of Language Modeling
- arxiv url: http://arxiv.org/abs/2501.02407v1
- Date: Sun, 05 Jan 2025 00:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:39.731738
- Title: Anonymization by Design of Language Modeling
- Title(参考訳): 言語モデルの設計による匿名化
- Authors: Antoine Boutet, Zakaria El Kazdam, Lucas Magnana, Helain Zimmermann,
- Abstract要約: 本稿では,言語モデル匿名化の問題に対処するために,プライバシ・バイ・デザイン言語モデリング手法を提案する。
本稿では,BERT に似た言語モデルを専門化する Masking Language Modeling (MLM) 手法と,GPT に似たモデルを専門とする Causal Language Modeling (CLM) 手法を提案する。
モデル特殊化の際,直接識別子と間接識別子の両方を記憶することを避けることで,マスキングと因果言語モデリングの手法は,高ユーティリティを維持しながら高いプライバシを維持するための最良のトレードオフを提供することを示す。
- 参考スコア(独自算出の注目度): 0.7874708385247352
- License:
- Abstract: Rapid advances in Natural Language Processing (NLP) have revolutionized many fields, including healthcare. However, these advances raise significant privacy concerns, especially when models specialized on sensitive data can memorize and then expose and regurgitate confidential information. This paper presents a privacy-by-design language modeling approach to address the problem of language models anonymization, and thus promote their sharing. Specifically, we propose both a Masking Language Modeling (MLM) methodology to specialize a BERT-like language model, and a Causal Language Modeling (CLM) methodology to specialize a GPT-like model that avoids the model from memorizing direct and indirect identifying information present in the training data. We have comprehensively evaluated our approaches using medical datasets and compared them against different baselines. Our results indicate that by avoiding memorizing both direct and indirect identifiers during model specialization, our masking and causal language modeling schemes offer the best tradeoff for maintaining high privacy while retaining high utility.
- Abstract(参考訳): 自然言語処理(NLP)の急速な進歩は、医療を含む多くの分野に革命をもたらした。
しかし、これらの進歩は、特に機密データに特化したモデルが機密情報を記憶し、公開し、取り消しできる場合に、重要なプライバシー上の懸念を引き起こす。
本稿では,言語モデル匿名化の問題に対処し,それらの共有を促進するために,プライバシ・バイ・デザイン言語モデリング手法を提案する。
具体的には,BERT に似た言語モデルを専門化する Masking Language Modeling (MLM) 手法と,トレーニングデータに存在する直接的および間接的識別情報を記憶することを避ける GPT のようなモデルを専門化する Causal Language Modeling (CLM) 手法の両方を提案する。
医療データセットを用いたアプローチを包括的に評価し,異なるベースラインと比較した。
モデル特殊化の際,直接識別子と間接識別子の両方を記憶することを避けることで,マスキングと因果言語モデリングの手法は,高ユーティリティを維持しながら高いプライバシを維持するための最良のトレードオフを提供することを示す。
関連論文リスト
- DSG-KD: Knowledge Distillation from Domain-Specific to General Language Models [8.328673243329794]
本研究は,韓国の小児救急部門(PED)から得られた電子カルテ(EMR)データに基づく緊急時・緊急時・緊急時分類タスクについて検討した。
既存のドメイン固有の事前学習言語モデルは、N言語自由テキストデータ特性を扱う場合の一般的な言語モデルと比較して性能が劣る。
本稿では,知識蒸留を利用したドメイン知識伝達手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T10:59:02Z) - Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - LMPriors: Pre-Trained Language Models as Task-Specific Priors [78.97143833642971]
適切な事前条件でモデルを拡張するための原則的手法を開発した。
これは、世界に対する私たちの理解と相容れない方法で学ぶことを奨励するものです。
我々は,近年の大規模言語モデル(LM)の成功から着想を得た。
論文 参考訳(メタデータ) (2022-10-22T19:09:18Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。