論文の概要: Privacy Guarantees for De-identifying Text Transformations
- arxiv url: http://arxiv.org/abs/2008.03101v1
- Date: Fri, 7 Aug 2020 12:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:21:42.024821
- Title: Privacy Guarantees for De-identifying Text Transformations
- Title(参考訳): テキスト変換の非識別のためのプライバシ保証
- Authors: David Ifeoluwa Adelani, Ali Davody, Thomas Kleinbauer, and Dietrich
Klakow
- Abstract要約: 我々は、差分プライバシーに基づいて、テキスト変換に基づく復号化手法の正式なプライバシー保証を導出する。
複数の自然言語理解タスクにおける深層学習モデルを用いた,より洗練された単語間置換手法との比較を行った。
単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることに気付きました。
- 参考スコア(独自算出の注目度): 17.636430224292866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning approaches to Natural Language Processing tasks benefit from
a comprehensive collection of real-life user data. At the same time, there is a
clear need for protecting the privacy of the users whose data is collected and
processed. For text collections, such as, e.g., transcripts of voice
interactions or patient records, replacing sensitive parts with benign
alternatives can provide de-identification. However, how much privacy is
actually guaranteed by such text transformations, and are the resulting texts
still useful for machine learning? In this paper, we derive formal privacy
guarantees for general text transformation-based de-identification methods on
the basis of Differential Privacy. We also measure the effect that different
ways of masking private information in dialog transcripts have on a subsequent
machine learning task. To this end, we formulate different masking strategies
and compare their privacy-utility trade-offs. In particular, we compare a
simple redact approach with more sophisticated word-by-word replacement using
deep learning models on multiple natural language understanding tasks like
named entity recognition, intent detection, and dialog act classification. We
find that only word-by-word replacement is robust against performance drops in
various tasks.
- Abstract(参考訳): 自然言語処理タスクに対する機械学習のアプローチは、現実のユーザデータの包括的な収集から恩恵を受ける。
同時に、データが収集され、処理されたユーザのプライバシーを保護することは明らかである。
音声対話の書き起こしや患者の記録などのテキストコレクションでは、繊細な部分を良質な代替品に置き換えることによって、識別を解除することができる。
しかし、このようなテキスト変換によって、実際にどの程度のプライバシーが保証されているのか。
本稿では,差分プライバシーに基づく一般テキスト変換に基づく非識別方式の形式的プライバシー保証を導出する。
また、ダイアログの書き起こしにおける個人情報のマスキング方法の違いがその後の機械学習タスクに与える影響を計測する。
この目的のために、異なるマスキング戦略を定式化し、プライバシ利用のトレードオフを比較する。
特に,名前付きエンティティ認識,意図検出,対話行為分類といった複数の自然言語理解タスクにおけるディープラーニングモデルを用いた,より洗練された単語単位の置き換え手法と比較した。
単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることがわかった。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Text Sanitization Beyond Specific Domains: Zero-Shot Redaction &
Substitution with Large Language Models [0.0]
本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。
本手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,プライバシ保護に優れることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:42:37Z) - Don't lose the message while paraphrasing: A study on content preserving
style transfer [61.38460184163704]
スタイル伝達研究の現実的な応用には,コンテンツ保存が不可欠である。
形式性伝達領域の例において、様々なスタイル転送モデルを比較する。
我々は,スタイル伝達のための最先端技術について,精密な比較研究を行っている。
論文 参考訳(メタデータ) (2023-08-17T15:41:08Z) - Guiding Text-to-Text Privatization by Syntax [0.0]
メトリック微分プライバシー(Metric Differential Privacy)は、テキストからテキストへのプライベート化というユニークな課題に対処するために設計された、差分プライバシーの一般化である。
置換後の単語の文法的カテゴリを保存するために,テキスト・テキスト・プライベート化の能力を分析する。
我々は、民営化のステップを、置換が一致した文法特性を持つ単語に向けられる候補選択問題に変換する。
論文 参考訳(メタデータ) (2023-06-02T11:52:21Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Semantics-Preserved Distortion for Personal Privacy Protection [48.69930912510414]
クライアントデバイスでは、ユーザによって毎日、個人情報を含む大量のテキストが生成される。
フェデレートラーニング(Federated Learning)では、クライアントデバイスの生の情報から中心モデルをブロックする多くの方法が提案されている。
本稿では,意味を保ちながらテキストを歪ませることで,より言語的にこれを行おうとする。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - CAPE: Context-Aware Private Embeddings for Private Language Learning [0.5156484100374058]
Context-Aware Private Embeddings (CAPE)は、埋め込みのトレーニング中にプライバシを保存する新しいアプローチである。
CAPEはディファレンシャルプライバシを通じて校正ノイズを適用し、機密情報を隠蔽しながらエンコードされたセマンティックリンクを保存する。
実験結果から,提案手法は単一介入よりも情報漏洩を低減させることが示された。
論文 参考訳(メタデータ) (2021-08-27T14:50:12Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - ADePT: Auto-encoder based Differentially Private Text Transformation [22.068984615657463]
自動エンコーダを用いたユーティリティ保存型差分プライベートテキスト変換アルゴリズムを提案する。
我々のアルゴリズムはテキストを変換し、攻撃に対して堅牢性を提供し、意味的品質の高い変換を生成する。
その結果,提案手法はMIA攻撃に対して有効であり,基礎となる変換プロセスの有用性は低下しないことがわかった。
論文 参考訳(メタデータ) (2021-01-29T23:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。