Fugu-MT 論文翻訳(概要): Sentence-level Privacy for Document Embeddings

論文の概要: Sentence-level Privacy for Document Embeddings

arxiv url: http://arxiv.org/abs/2205.04605v1
Date: Tue, 10 May 2022 00:19:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-15 00:06:59.480759
Title: Sentence-level Privacy for Document Embeddings
Title（参考訳）: 文書埋め込みのための文レベルのプライバシー
Authors: Casey Meehan, Khalil Mrini, Kamalika Chaudhuri
Abstract要約: 単一ユーザ文書の文レベルでの純粋ローカル差分プライバシーであるSentDPを提案する。実験の結果,これらの文書の埋め込みは感情分析やトピック分類といった下流作業に有用であることが示唆された。
参考スコア（独自算出の注目度）: 25.779351166096255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: User language data can contain highly sensitive personal content. As such, it is imperative to offer users a strong and interpretable privacy guarantee when learning from their data. In this work, we propose SentDP: pure local differential privacy at the sentence level for a single user document. We propose a novel technique, DeepCandidate, that combines concepts from robust statistics and language modeling to produce high-dimensional, general-purpose $\epsilon$-SentDP document embeddings. This guarantees that any single sentence in a document can be substituted with any other sentence while keeping the embedding $\epsilon$-indistinguishable. Our experiments indicate that these private document embeddings are useful for downstream tasks like sentiment analysis and topic classification and even outperform baseline methods with weaker guarantees like word-level Metric DP.
Abstract（参考訳）: ユーザ言語データは、高度にセンシティブな個人コンテンツを含むことができる。そのため、データから学習する場合、ユーザに強力で解釈可能なプライバシー保証を提供することが不可欠である。本研究では,senddp:pure local differential privacyを文レベルで単一ユーザ文書に対して提案する。本稿では,高次元で汎用性の高い$\epsilon$-SentDP文書の埋め込みを生成するために,ロバスト統計学と言語モデリングの概念を組み合わせた新しい手法DeepCandidateを提案する。これにより、文書中の任意の一文は他の文と置換でき、$\epsilon$-indistinguishableを埋め込むことができる。実験の結果,これらのプライベート文書の埋め込みは,感情分析やトピック分類といった下流作業や,単語レベルのメートル法DPなどの保証が弱いベースライン手法よりも優れていることがわかった。

関連論文リスト

Urania: Differentially Private Insights into AI Use [104.7449031243196]
$Urania$は、クラスタリング、パーティション選択、ヒストグラムベースの要約といったDPツールを活用することによって、エンドツーエンドのプライバシ保護を提供する。結果は、厳密なユーザのプライバシを維持しながら、意味のある会話の洞察を抽出するフレームワークの能力を示している。
論文参考訳（メタデータ） (2025-06-05T07:00:31Z)
Spend Your Budget Wisely: Towards an Intelligent Distribution of the Privacy Budget in Differentially Private Text Rewriting [3.0177210416625124]
テキスト文書中のトークンの構成にプライバシー予算を割り当てるのに使用される言語学およびNLPに基づく手法のツールキットを構築し,評価する。我々の研究は、DPによるテキストの民営化の複雑さを強調し、さらに、DPによるテキストの書き直しにおける民営化のメリットを最大化するための、より効率的な方法を見つけることを求めている。
論文参考訳（メタデータ） (2025-03-28T12:33:46Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Granularity is crucial when applying differential privacy to text: An investigation for neural machine translation [13.692397169805806]
差分プライバシー(DP)は、NLPでますます人気が高まっている。 DPが適用される粒度の選択はしばしば無視される。以上の結果から, 文書レベルのNMTシステムは, メンバーシップ推論攻撃に対する耐性が高いことが示唆された。
論文参考訳（メタデータ） (2024-07-26T14:52:37Z)
A Collocation-based Method for Addressing Challenges in Word-level Metric Differential Privacy [3.0177210416625124]
ワードレベルの$textitMetric$ Differential Privacyアプローチが提案されている。構成された民営化出力のセマンティックコヒーレンスと可変長を向上する手法を考案する。本手法を実用性とプライバシテストで評価することにより,単語レベルを超えてトークン化戦略を明確にする。
論文参考訳（メタデータ） (2024-06-30T09:37:34Z)
Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text [3.3916160303055567]
本稿では,書き直したテキストを元のテキストと整合させることを目標とした,簡単な後処理手法を提案する。以上の結果から,このような手法は,従来の入力よりも意味論的に類似した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。
論文参考訳（メタデータ） (2024-05-30T08:41:33Z)
Metric Differential Privacy at the User-Level Via the Earth Mover's Distance [34.63551774740707]
メートル差プライバシー(DP)は、入力のペア間の距離に基づいて不均一なプライバシー保証を提供する。本稿では,ユーザレベルでのメートル法DPの自然な定義について検討する。線形クエリとアイテムワイズクエリに応答する2つの新しいメカニズムを$d_textsfEM$-DPで設計する。
論文参考訳（メタデータ） (2024-05-04T13:29:11Z)
Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文参考訳（メタデータ） (2024-03-23T06:36:32Z)
Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文参考訳（メタデータ） (2023-07-05T20:16:20Z)
Are the Best Multilingual Document Embeddings simply Based on Sentence Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-28T12:11:21Z)
DP-BART for Privatized Text Rewriting under Local Differential Privacy [2.45626162429986]
本稿では,既存の LDP システムに大きく勝る新システム "DP-BART" を提案する。提案手法では,新たなクリッピング手法,反復的プルーニング,およびDP保証に必要なノイズを劇的に低減する内部表現の訓練を用いる。
論文参考訳（メタデータ） (2023-02-15T13:07:34Z)
DocNLI: A Large-scale Dataset for Document-level Natural Language Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文参考訳（メタデータ） (2021-06-17T13:02:26Z)
Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文参考訳（メタデータ） (2020-10-06T15:21:08Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。