論文の概要: Current State in Privacy-Preserving Text Preprocessing for Domain-Agnostic NLP
- arxiv url: http://arxiv.org/abs/2508.03204v1
- Date: Tue, 05 Aug 2025 08:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.863318
- Title: Current State in Privacy-Preserving Text Preprocessing for Domain-Agnostic NLP
- Title(参考訳): ドメインに依存しないNLPのためのプライバシ保存テキスト前処理の現状
- Authors: Abhirup Sinha, Pritilata Saha, Tithi Saha,
- Abstract要約: 現代の大きな言語モデルは、言語的なバリエーションを学ぶのに膨大な量のデータを必要とする。
このような言語モデルから個人情報を抽出することが可能である。
本報告はドメインに依存しないNLPタスクに対するいくつかのアプローチに焦点を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy is a fundamental human right. Data privacy is protected by different regulations, such as GDPR. However, modern large language models require a huge amount of data to learn linguistic variations, and the data often contains private information. Research has shown that it is possible to extract private information from such language models. Thus, anonymizing such private and sensitive information is of utmost importance. While complete anonymization may not be possible, a number of different pre-processing approaches exist for masking or pseudonymizing private information in textual data. This report focuses on a few of such approaches for domain-agnostic NLP tasks.
- Abstract(参考訳): プライバシーは基本的人権である。
データプライバシはGDPRなど,さまざまな規制によって保護されています。
しかし、現代の大規模言語モデルは言語的なバリエーションを学ぶのに膨大な量のデータを必要とし、そのデータはしばしばプライベート情報を含んでいる。
研究により、そのような言語モデルから個人情報を抽出することが可能であることが示されている。
したがって、そのようなプライベートで機密性の高い情報を匿名化することが最も重要である。
完全な匿名化は不可能かもしれないが、テキストデータで個人情報をマスキングや偽名化するための様々な事前処理アプローチが存在する。
本報告では、ドメインに依存しないNLPタスクに対するいくつかのアプローチに焦点を当てる。
関連論文リスト
- Token-Level Privacy in Large Language Models [7.4143291213663955]
本稿では,文脈情報と意味情報を統合するトークンレベルの新しいプライバシ保護機構であるdchi-stencilを紹介する。
意味的ニュアンスと文脈的ニュアンスの両方を取り入れることで、dchi-stencilはプライバシとユーティリティの堅牢なバランスを実現する。
この研究は、現代の高リスクアプリケーションにおけるプライバシ保護NLPの新しい標準を設定するためのdchi-stencilの可能性を強調している。
論文 参考訳(メタデータ) (2025-03-05T16:27:25Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Algorithms with More Granular Differential Privacy Guarantees [65.3684804101664]
我々は、属性ごとのプライバシー保証を定量化できる部分微分プライバシー(DP)について検討する。
本研究では,複数の基本データ分析および学習タスクについて検討し,属性ごとのプライバシパラメータが個人全体のプライバシーパラメータよりも小さい設計アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-09-08T22:43:50Z) - Differential Privacy in Natural Language Processing: The Story So Far [21.844047604993687]
本稿では,差分プライバシーが抱える脆弱性を要約することを目的とする。
このトピックは、NLPメソッドに差別的プライバシを適用するにはどうすればよいのか、という1つの基本的な目標にまとめられている、新しい研究のきっかけとなった。
論文 参考訳(メタデータ) (2022-08-17T08:15:44Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z) - KART: Privacy Leakage Framework of Language Models Pre-trained with
Clinical Records [0.0]
我々は,MIMIC-IIIコーパスで事前学習したBERTモデルを用いて,言語モデルのプライバシリスクを実証的に評価した。
BERTモデルは、各攻撃のTop-100精度が偶然に予想よりはるかに低いため、おそらく低リスクであった。
我々は、KART(Knowledge, Anonymization, Resource, and Target)フレームワークという、普遍的な新しいフレームワークで、さまざまなプライバシー漏洩シナリオを定式化した。
論文 参考訳(メタデータ) (2020-12-31T19:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。