論文の概要: Sentence-level Privacy for Document Embeddings
- arxiv url: http://arxiv.org/abs/2205.04605v1
- Date: Tue, 10 May 2022 00:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 00:06:59.480759
- Title: Sentence-level Privacy for Document Embeddings
- Title(参考訳): 文書埋め込みのための文レベルのプライバシー
- Authors: Casey Meehan, Khalil Mrini, Kamalika Chaudhuri
- Abstract要約: 単一ユーザ文書の文レベルでの純粋ローカル差分プライバシーであるSentDPを提案する。
実験の結果,これらの文書の埋め込みは感情分析やトピック分類といった下流作業に有用であることが示唆された。
- 参考スコア(独自算出の注目度): 25.779351166096255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User language data can contain highly sensitive personal content. As such, it
is imperative to offer users a strong and interpretable privacy guarantee when
learning from their data. In this work, we propose SentDP: pure local
differential privacy at the sentence level for a single user document. We
propose a novel technique, DeepCandidate, that combines concepts from robust
statistics and language modeling to produce high-dimensional, general-purpose
$\epsilon$-SentDP document embeddings. This guarantees that any single sentence
in a document can be substituted with any other sentence while keeping the
embedding $\epsilon$-indistinguishable. Our experiments indicate that these
private document embeddings are useful for downstream tasks like sentiment
analysis and topic classification and even outperform baseline methods with
weaker guarantees like word-level Metric DP.
- Abstract(参考訳): ユーザ言語データは、高度にセンシティブな個人コンテンツを含むことができる。
そのため、データから学習する場合、ユーザに強力で解釈可能なプライバシー保証を提供することが不可欠である。
本研究では,senddp:pure local differential privacyを文レベルで単一ユーザ文書に対して提案する。
本稿では,高次元で汎用性の高い$\epsilon$-SentDP文書の埋め込みを生成するために,ロバスト統計学と言語モデリングの概念を組み合わせた新しい手法DeepCandidateを提案する。
これにより、文書中の任意の一文は他の文と置換でき、$\epsilon$-indistinguishableを埋め込むことができる。
実験の結果,これらのプライベート文書の埋め込みは,感情分析やトピック分類といった下流作業や,単語レベルのメートル法DPなどの保証が弱いベースライン手法よりも優れていることがわかった。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - A Collocation-based Method for Addressing Challenges in Word-level Metric Differential Privacy [3.0177210416625124]
ワードレベルの$textitMetric$ Differential Privacyアプローチが提案されている。
構成された民営化出力のセマンティックコヒーレンスと可変長を向上する手法を考案する。
本手法を実用性とプライバシテストで評価することにより,単語レベルを超えてトークン化戦略を明確にする。
論文 参考訳(メタデータ) (2024-06-30T09:37:34Z) - Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text [3.3916160303055567]
本稿では,書き直したテキストを元のテキストと整合させることを目標とした,簡単な後処理手法を提案する。
以上の結果から,このような手法は,従来の入力よりも意味論的に類似した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。
論文 参考訳(メタデータ) (2024-05-30T08:41:33Z) - Metric Differential Privacy at the User-Level Via the Earth Mover's Distance [34.63551774740707]
メートル差プライバシー(DP)は、入力のペア間の距離に基づいて不均一なプライバシー保証を提供する。
本稿では,ユーザレベルでのメートル法DPの自然な定義について検討する。
線形クエリとアイテムワイズクエリに応答する2つの新しいメカニズムを$d_textsfEM$-DPで設計する。
論文 参考訳(メタデータ) (2024-05-04T13:29:11Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - DP-BART for Privatized Text Rewriting under Local Differential Privacy [2.45626162429986]
本稿では,既存の LDP システムに大きく勝る新システム "DP-BART" を提案する。
提案手法では,新たなクリッピング手法,反復的プルーニング,およびDP保証に必要なノイズを劇的に低減する内部表現の訓練を用いる。
論文 参考訳(メタデータ) (2023-02-15T13:07:34Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。