# (参考訳) 文書埋め込みのための文レベルのプライバシー [全文訳有]

Sentence-level Privacy for Document Embeddings ( http://arxiv.org/abs/2205.04605v1 )

ライセンス: CC BY 4.0
Casey Meehan, Khalil Mrini, Kamalika Chaudhuri(参考訳) ユーザ言語データは、高度にセンシティブな個人コンテンツを含むことができる。 そのため、データから学習する場合、ユーザに強力で解釈可能なプライバシー保証を提供することが不可欠である。 本研究では,senddp:pure local differential privacyを文レベルで単一ユーザ文書に対して提案する。 本稿では,高次元で汎用性の高い$\epsilon$-SentDP文書の埋め込みを生成するために,ロバスト統計学と言語モデリングの概念を組み合わせた新しい手法DeepCandidateを提案する。 これにより、文書中の任意の一文は他の文と置換でき、$\epsilon$-indisting uishableを埋め込むことができる。 実験の結果,これらのプライベート文書の埋め込みは,感情分析やトピック分類といった下流作業や,単語レベルのメートル法DPなどの保証が弱いベースライン手法よりも優れていることがわかった。

User language data can contain highly sensitive personal content. As such, it is imperative to offer users a strong and interpretable privacy guarantee when learning from their data. In this work, we propose SentDP: pure local differential privacy at the sentence level for a single user document. We propose a novel technique, DeepCandidate, that combines concepts from robust statistics and language modeling to produce high-dimensional, general-purpose $\epsilon$-SentDP document embeddings. This guarantees that any single sentence in a document can be substituted with any other sentence while keeping the embedding $\epsilon$-indisting uishable. Our experiments indicate that these private document embeddings are useful for downstream tasks like sentiment analysis and topic classification and even outperform baseline methods with weaker guarantees like word-level Metric DP.
公開日: Tue, 10 May 2022 00:19:35 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
Sentence-level Privacy for Document Embeddings 文書埋め込みのための文レベルのプライバシー 0.56
Casey Meehan and Khalil Mrini and Kamalika Chaudhuri casey meehan と khalil mrini と kamalika chaudhuri 0.55
UC San Diego カリフォルニア大学サンディエゴ校 0.64
{cmeehan, kmrini, kamalika}@eng.ucsd.edu cmeehan, kmrini, kamalika}@eng.ucsd.edu 0.42
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] G L . s c [ ] G L。 sc [ 0.47
1 v 5 0 6 4 0 1 v 5 0 6 4 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract User language data can contain highly sensitive personal content. 概要 ユーザ言語データは、高度にセンシティブな個人コンテンツを含むことができる。 0.54
As such, it is imperative to offer users a strong and interpretable privacy guarantee when learning from their data. そのため、データから学習する場合、ユーザに強力で解釈可能なプライバシー保証を提供することが不可欠である。 0.70
In this work, we propose SentDP: pure local differential privacy at the sentence level for a single user document. 本研究では,senddp:pure local differential privacyを文レベルで単一ユーザ文書に対して提案する。 0.73
We propose a novel technique, DeepCandidate, that combines concepts from robust statistics and language modeling to produce high-dimensional, general-purpose -SentDP document embeddings. 本研究では,ロバスト統計と言語モデリングの概念を組み合わせて,高次元の汎用文書埋め込みを実現する新しい手法であるdeepcandidateを提案する。 0.69
This guarantees that any single sentence in a document can be substituted with any other sentence while keeping the embedding -indistinguishable. これにより、文書中の任意の一文は他の文と置換でき、その埋め込みは区別できない。 0.61
Our experiments indicate that these private document embeddings are useful for downstream tasks like sentiment analysis and topic classification and even outperform baseline methods with weaker guarantees like word-level Metric DP. 実験の結果,これらのプライベート文書の埋め込みは,感情分析やトピック分類といった下流作業や,単語レベルのメートル法DPなどの保証が弱いベースライン手法よりも優れていることがわかった。 0.61
Introduction 1 Language models have now become ubiquitous in NLP (Devlin et al , 2019; Liu et al , 2019b; Alsentzer et al , 2019), pushing the state-of-the-art in a variety of tasks (Strubell et al , 2018; Liu et al , 2019a; Mrini et al , 2021). はじめに NLP(Devlin et al , 2019b; Liu et al , 2019b; Alsentzer et al , 2019)で1言語モデルがユビキタス化され、さまざまなタスク(Strubell et al , 2018; Liu et al , 2019a; Mrini et al , 2021)で最先端に到達した。 0.70
While language models capture meaning and various linguistic properties of text (Jawahar et al , 2019; Yenicelik et al , 2020), an individual’s written text can include highly sensitive information. 言語モデルは、意味とテキストのさまざまな言語的特性(jawahar et al , 2019; yenicelik et al , 2020)をキャプチャするが、個人の文章には、高度に敏感な情報が含まれている。 0.74
Even if such details are not needed or used, sensitive information has been found to be vulnerable and detectable to attacks (Pan et al , 2020; Abdalla et al , 2020; Carlini et al , 2020). そのような詳細が不要であっても、機密情報は攻撃に対して脆弱で検出可能であることが判明している(pan et al , 2020; abdalla et al , 2020; carlini et al , 2020)。 0.76
Reconstruction attacks (Xie and Hong, 2021) have even successfully broken through private learning schemes that rely on encryption-type methods (Huang et al , 2020). レコンストラクション攻撃(xie and hong, 2021)は、暗号化型メソッドに依存するプライベートラーニングスキーム(huang et al, 2020)によってもうまく破られた。 0.67
As of now, there is no broad agreement on what constitutes good privacy for natural language (Kairouz et al , 2019). 現在、自然言語の適切なプライバシーを構成するものについては、広く合意されていない(Kairouz et al , 2019)。 0.70
Huang et al (2020) argue that different applications and models require Huang et al (2020) は異なるアプリケーションとモデルを必要とすると主張している 0.75
Figure 1: x and x(cid:48) yield z ∈ Rd with similar probability. 図1: x と x(cid:48) は、同様の確率で z ∈ Rd を得る。 0.81
different privacy definitions. 異なるプライバシーの定義です 0.74
Several emerging works propose to apply Metric Differential Privacy (Alvim et al , 2018) at the word level (Feyisetan et al , 2019; Feyisetan and Kasiviswanathan, 2021; Carvalho et al , 2021; Qu et al , 2021; Yue et al , 2021; Xu et al , 2021) . 計量微分プライバシー(alvim et al , 2018)を単語レベル(feyisetan et al , 2019; feyisetan and kasiviswanathan, 2021; carvalho et al , 2021; qu et al , 2021; yue et al , 2021; xu et al , 2021)に適用することを提案している。
訳抜け防止モード: いくつかの新しい研究は、Metric Differential Privacy (Alvim et al, 2018) を語レベル (Feyisetan et al, 2019) に適用することを提案している。 そしてKasiviswanathan, 2021 ; Carvalho et al, 2021 ; Qu et al, 2021 ; Yue et al, 2021 ; Xu et al, 2021 )。
They propose to add noise to word embeddings, such that they are indistinguishable from their nearest neighbours. 彼らは単語の埋め込みにノイズを加えることを提案し、近くの隣人と区別できないようにしている。 0.60
At the document level, however, the above definition has two areas for improvement. しかしドキュメントレベルでは、上記の定義には改善すべき2つの領域がある。 0.71
First, it may not offer the level of privacy desired. 第一に、プライバシーのレベルは提供されないかもしれない。 0.62
Having each word indistinguishable with similar words may not hide higher level concepts in the document, and may not be satisfactory for many users. 各単語が類似した単語と区別できないことは、文書の上位概念を隠さず、多くのユーザーにとって満足できないかもしれない。 0.67
Second, it may not be very interpretable or easy to communicate to end-users, since the privacy definition relies fundamentally on the choice of embedding model to determine which words are indistinguishable with a given word. 第二に、プライバシの定義は、どの単語が特定の単語と区別できないかを決定する埋め込みモデルの選択に基本的に依存しているため、エンドユーザと通信するのが容易ではないかもしれない。 0.64
This may not be clear and precise enough for end-users to grasp. これは、エンドユーザが把握できるほど明確で正確ではないかもしれない。 0.43
In this work, we propose a new privacy definition for documents: sentence privacy. 本研究では,文書に対する新たなプライバシー定義である文のプライバシーを提案する。 0.69
This guarantee is both strong and interpretable: any sentence in a document must be indistinguishable with any other sentence. この保証は強固かつ解釈可能であり、文書中の任意の文は他の文と区別できない。 0.73
A document embedding is sentenceprivate if we can replace any single sentence in the document and have a similar probability of producing the same embedding. 文書埋め込みは、文書内の任意の一文を置き換えることができ、同じ埋め込みを生成する同様の可能性を持つ場合に、文プライベートである。
訳抜け防止モード: 文書埋め込みが文民である場合 文書中の任意の一文を置き換えることができ、同じ埋め込みを生成するのと同じ確率を持つ。
As such, the embedding only stores limited information unique to any given sentence. そのため、埋め込みは任意の文に固有の限られた情報のみを格納する。 0.57
This definition is easy to communicate and strictly stronger than word-level definitions, as modifying a sentence can be changing one word. この定義はコミュニケーションが容易で、文の変更は1つの単語を変更する可能性があるため、単語レベルの定義よりも厳格に強い。 0.63
Figure 2: DeepCandidate generates a private embedding z of document x by selecting from a set F of public, non-private document embeddings. 図2: DeepCandidateは、パブリックな非プライベートなドキュメント埋め込みのセットFから選択することで、ドキュメントxのプライベート埋め込みzを生成する。 0.70
Sentences from x are encoded by G(cid:48). x からの文は G(cid:48) で符号化される。 0.64
The privacy mechanism MTD, then privately samples from F , with a preference for candidates with high Tukey Depth, ‘deep candidates’. プライバシーメカニズムMTDは、Fからプライベートにサンプリングされ、高いTukey Depth、‘deep candidate’の候補が好まれる。 0.65
G(cid:48) is trained beforehand to ensure that deep candidates are likely to exist and are relevant to x. g(cid:48) は前もって訓練され、深層候補が存在する可能性が高く、x に関係していることを保証する。 0.59
Although this definition is strong, we are able to produce unsupervised, general embeddings of documents that are useful for downstream tasks like sentiment analysis and topic classification. この定義は強いが、感情分析やトピック分類といった下流のタスクに有用な、教師なし、一般的な文書の埋め込みを生成することができる。 0.63
To achieve this we propose a novel privacy mechanism, DeepCandidate, which privately samples a high-dimensional embedding from a preselected set of candidate embeddings derived from public, non-private data. そこで我々は,パブリックな非プライベートデータから選択された候補組から高次元埋め込みをプライベートにサンプリングする,新しいプライバシ機構であるdeepcandidateを提案する。 0.77
DeepCandidate works by first pretuning a sentence encoder on public data such that semantically different document embeddings are far apart from each other. DeepCandidateは、文エンコーダを公開データに事前調整することで、意味的に異なるドキュメントの埋め込みが互いに遠く離れているように機能する。
訳抜け防止モード: DeepCandidateは、まず公開データに文エンコーダをプリチューニングする。 意味的に異なる文書の埋め込みは互いに遠く離れています
Then, we approximate each candidate’s Tukey Depth within the private documents’ sentence embeddings. 次に、各候補のTukey Depthを、プライベートドキュメントの文の埋め込み内に近似する。 0.70
Deeper candidates are the most likely to be sampled to represent the private document. より深い候補は、プライベートドキュメントを表すためにサンプルされる可能性が高い。 0.77
We evaluate DeepCandidate on three illustrative datasets, and show that these unsupervised private embeddings are useful for both sentiment analysis and topic classification as compared to baselines. また,これらの非教師付きプライベート組込みが,感情分析とトピック分類の両方において,ベースラインと比較して有用であることを示す。 0.57
In summary, this work makes the following con- 要約すると、この作品は次のとおりである。 0.55
tributions to the language privacy literature: 言語プライバシー文学への帰属: 0.73
1. A new, strong, and interpretable privacy definition that offers complete indistinguishability to each sentence in a document. 1. 文書中の各文に完全に区別できない、新しく、強く、解釈可能なプライバシー定義。 0.68
2. A novel, unsupervised embedding technique, DeepCandidate, to generate sentence-private document embeddings. 2. 文プライベートな文書埋め込みを生成する新しい非教師なし埋め込み技術であるDeepCandidate。 0.75
3. An empirical assessment of DeepCandidate, demonstrating its advantage over baselines, delivering strong privacy and utility. 3.deepcandidateの実証的評価、ベースラインに対する優位性の実証、強力なプライバシーとユーティリティの提供。 0.66
x = (s1, s2, . . . , sk) for any non-negative integer k of sentences. x = (s1, s2, . . . , sk) 文の任意の非負整数 k に対して。 0.84
In this work, we focus on cohesive documents of sentences written together like reviews or emails, but our methods and guarantees apply to any sequence of sentences, such as a collection of messages written by an individual over some period of time. 本研究は、レビューや電子メールのように書かれた文の集合的な文書に焦点をあてるが、その方法と保証は、ある期間にわたって個人によって書かれたメッセージの収集など、あらゆる文列に適用できる。 0.66
Our task is to produce an embedding z ∈ Rd of any document x ∈ X such that any single sentence si ∈ x is indistinguishable with every other seni ∈ S\si. 我々の仕事は、任意の文書 x ∈ x の埋め込み z ∈ rd を生成して、任意の単文 si ∈ x が他のすべての seni ∈ s\si と区別できないようにすることである。
訳抜け防止モード: 我々の仕事は、任意の文書 x ∈ X の埋め込み z ∈ Rd を生成することである。 任意の単文 si ∈ x は他のすべてのseni ∈ S\si と区別できない。
That is, if one were to replace any tence s(cid:48) single sentence in the document si ∈ x with any i ∈ S\si, the probability of proother sentence s(cid:48) ducing a given embedding z is similar. すなわち、文書 si ∈ x 内の任意のテンス s(cid:48) の単文を任意の i ∈ s\si に置き換えるならば、与えられた埋め込み z をダックする他の文 s(cid:48) の確率も同様である。 0.81
To achieve this, we propose a randomized embedding function (the embedding mechanism) M : X → Rd, that generates a private embedding z = M(x) that is useful for downstream tasks. これを実現するために、下流タスクに有用なプライベートな埋め込み z = M(x) を生成するランダムな埋め込み関数 (埋め込み機構) M : X → Rd を提案する。 0.72
2.1 Differential Privacy The above privacy notion is inspired by Differential Privacy (DP) (Dwork, 2006). 2.1 差別プライバシー 上記のプライバシー概念は、差分プライバシー(DP)の影響を受けている(Dwork, 2006)。 0.66
It guarantees that — whether an individual participates (dataset D) or not (dataset D(cid:48)) — the probability of any output only chances by a constant factor. 個人が参加する(データセットd)かどうか(データセットd(cid:48))が保証される。
訳抜け防止モード: それは保証される。 個人が(データセットd)か否か(データセットd(cid:48)) -任意の出力の確率は、一定の係数のみの確率である。
Definition 2.1 (Differential Privacy). 定義 2.1 (異なるプライバシー)。 0.75
Given any pair of datasets D, D(cid:48) ∈ D that differ only in the information of a single individual, we say that the mechanism A : D → O, satisfies -DP if 任意の対のデータセット d, d(cid:48) ∈ d が 1 個の個人の情報にのみ異なるとき、そのメカニズム a : d → o が s-dp を満たすことを言う。 0.81
Pr[A(D) ∈ O] ≤ e Pr[A(D(cid:48)) ∈ O] Pr[A(D) ∈ O] ≤ e> Pr[A(D(cid:48)) ∈ O] 0.47
for any event O ⊆ O. いずれにせよ、O は O である。 0.44
2 Background and Related Work Setting. 2 背景と関連作業の設定。 0.76
We denote a ‘document’ as a sequence of sentences. 我々は「文書」を文の列として表現する。 0.67
Let s ∈ S be any finite-length sentence. s ∈ S を任意の有限長文とする。 0.72
Then, the space of all documents is X = S∗ and document x ∈ X is written as すると、すべての文書の空間は x = s∗ であり、文書 x ∈ x は次のように書かれる。 0.72
Note that we take probability over the randomness of the mechanism A only, not the data distribution. データ分布ではなく、メカニズムのランダム性だけを確率的に捉えることに注意する。 0.77
DP has several nice properties that make it easy to work with including closure under postprocessing, an additive privacy budget (composition), and closure under group privacy guarantees DPには、後処理によるクロージャ、追加のプライバシー予算(構成)、グループプライバシ保証によるクロージャなど、作業が容易ないくつかの優れた特性がある。
訳抜け防止モード: DPには、後処理によるクロージャを含め、作業が容易ないくつかの優れた特性がある。 追加のプライバシー予算(構成)とグループプライバシー保証による閉鎖
(guarantees to a subset of multiple participants). (複数の参加者のサブセットにguaranteeを割り当てる)。 0.78
See Dwork et al 2014 for more details. 詳細はDwork et al 2014を参照。 0.76
The exponential mechanism (McSherry and Talwar, 2007) allows us to make a DP selection from an arbitrary output space O based on private dataset D. A utility function over input/output pairs, u : D × O → R determines which outputs are the best selection given dataset D. The log probability of choosing output o ∈ O when the input is dataset D ∈ D is then proportional to its utility u(D, o). 指数関数機構 (McSherry and Talwar, 2007) により、任意の出力空間 O から、プライベートデータセット D に基づいてDP選択を行うことができる。 入力/出力対上のユーティリティ関数 u : D × O → R は、与えられたデータセット D に対してどの出力が最適な選択であるかを決定する。
訳抜け防止モード: 指数関数機構 (McSherry and Talwar, 2007 ) により、任意の出力空間 O から DP を選択することができる。 u : D × O → R は与えられたデータセット D に対してどの出力が最適な選択であるかを決定する。 入力がデータセット D ∈ D であるときに出力 o ∈ O を選択する このとき、その効用 u(D , o ) に比例する。
The sensitivity of u(·,·) is the worst-case change in utility over pairs of neighboring datasets (D, D(cid:48)) that change in one entry, ∆u = maxD,D(cid:48),o |u(D, o) − u(D(cid:48), o)|. u(·,·) の感度は、1つのエントリで変化する隣接するデータセット (d, d(cid:48)) のペアに対するユーティリティの最悪の変更であり、u = maxd, d(cid:48),o |u(d, o) − u(d(cid:48), o)| である。 0.85
Definition 2.2. The exponential mechanism AExp : D → O is a randomized algorithm with output distribution 2.2。 指数的機構 AExp : D → O は出力分布を持つランダム化アルゴリズムである 0.77
Pr[AExp(D) = o] ∝ exp(cid:0) u(D, o) pr[aexp(d) = o]\exp(cid:0)\u(d, o) である。 0.70
(cid:1) . 2∆u (cid:1) . 2回。 0.37
2.2 Related Work Natural Language Privacy. 2.2 関連業務 自然言語プライバシー。 0.80
Previous work has demonstrated that NLP models and embeddings are vulnerable to reconstruction attacks (Carlini et al , 2020; Abdalla et al , 2020; Pan et al , 2020). これまでの研究では、NLPモデルと埋め込みが再建攻撃に弱いことが示されている(Carlini et al , 2020; Abdalla et al , 2020; Pan et al , 2020)。 0.79
In response there have been various efforts to design privacy-preserving techniques and definitions across NLP tasks. これに対し、NLPタスク全体にわたるプライバシ保護技術と定義を設計するための様々な取り組みがあった。 0.59
A line of work focuses on how to make NLP model training satisfy DP (Kerrigan et al , 2020; Bagdasaryan et al , 2019). NLPモデルのトレーニングがDPを満足させる方法(Kerrigan et al , 2020; Bagdasaryan et al , 2019)に焦点を当てている。 0.75
This is distinct from our work in that it satisfies central DP – where data is first aggregated non-privately and then privacy preserving algorithms (i.e. training) are run on that data. データを最初に非プライベートに集約し、その後、そのデータ上でプライバシ保護アルゴリズム(すなわちトレーニング)を実行する。
訳抜け防止モード: これは我々の研究と異なり、中央DPを満足している。 データはまず非プライベートに集約され、次にプライバシ保護アルゴリズム(トレーニングなど)が使用される。 データで実行されます
We model this work of the local version of DP (Dwork et al , 2006), wherein each individual’s data is made private before centralizing. 我々はこのDP(Dwork et al , 2006)のローカルバージョンをモデル化し、各個人のデータは中央集権化する前にプライベートにされる。 0.80
Our definition guarantees privacy to a single document as opposed to a single individual. 私たちの定義では、個人ではなく、単一のドキュメントにプライバシを保証します。 0.57
A line of work more comparable to our approach makes documents locally private by generating a randomized version of a document that satisfies some formal privacy definition. 我々のアプローチに匹敵する一連の作業は、形式的なプライバシー定義を満たす文書のランダム化バージョンを生成することによって、ドキュメントをローカルにプライベートにする。
訳抜け防止モード: 私たちのアプローチに匹敵する仕事のラインが 地方文書 形式的なプライバシー定義を満たすドキュメントのランダム化バージョンを生成することによって。
As with the private embedding of our work, this generates locally private representation of a given document x. 私たちの作品のプライベートな埋め込みと同様に、これは与えられた文書 x のローカルなプライベート表現を生成する。 0.66
The overwhelming majority of these methods satisfy an instance of Metric-DP (Alvim et al , 2018) at the word level (Feyisetan et al , 2019; Feyisetan and Kasiviswanathan, 2021; Carvalho et al , 2021; Qu et al , 2021; Yue et al , 2021; Xu et al , 2021). これらの手法の圧倒的多数は、単語レベルのメートル法-dp(alvim et al , 2018)の例を満たす(feyisetan et al , 2019; feyisetan and kasiviswanathan 2021; carvalho et al , 2021; qu et al , 2021; yue et al , 2021; xu et al , 2021)。
訳抜け防止モード: これらの手法の圧倒的多数は、単語レベル (Feyisetan et al, 2019 ; Feyisetan) における Metric - DP (Alvim et al, 2018 ) の例を満たす。 そして、Kasiviswanathan, 2021 ; Carvalho et al, 2021 ; Qu et al, 2021 ; Yue et al, 2021 ; Xu et al, 2021 )。
As discussed in the introduction, this guarantees that a document x is indistinguishable with any other document x(cid:48) produced by swapping a single word 序文で述べたように、1つの単語を交換した文書xが他の文書x(cid:48)と区別できないことを保証する。 0.68
in x with a similar word. x でも同様の単語で表される。 0.69
Two words are ‘similar’ if they are close in the word embeddings space (e g GloVe). 2つの単語は、埋め込み空間 (e g GloVe) に近ければ「類似」である。 0.71
This guarantee is strictly weaker than our proposed definition, SentDP, which offers indistinguishability to any two documents that differ in an entire sentence. この保証は、提案された定義であるSentDPよりも厳格に弱い。
訳抜け防止モード: この保証は、提案された定義であるSentDPよりも厳格に弱い。 文全体で異なる2つの文書に 区別がつかないものです
Privacy-preserving embeddings. プライバシー保護の埋め込み。 0.54
There is a large body of work on non-NLP privacy-preserving embeddings, as these embeddings have been shown to be vulnerable to attacks (Song and Raghunathan, 2020). 非NLPのプライバシー保護の埋め込みは、攻撃に弱いことが示されている(SongとRaghunathan, 2020)。
訳抜け防止モード: 非NLPプライバシに関する大きな取り組みがあります。 埋め込みを保存します これらの埋め込みは攻撃に弱いことが示されている(Song and Raghunathan, 2020)。
Li and Clifton (2021) attempt to generate locally private embeddings by bounding the embedding space, and we compare with this method in our experiments. Li と Clifton (2021) は埋め込み空間を束縛することで局所的なプライベートな埋め込みを創出しようと試み,本手法との比較を行った。 0.74
Kamath et al (2019) propose a method for privately publishing the average of embeddings, but their algorithm is not suited to operate on the small number of samples (sentences) a given document offers. Kamath et al (2019) は、埋め込みの平均をプライベートに公開する方法を提案するが、それらのアルゴリズムは、与えられた文書が提供する少数のサンプル(文)を扱うには適していない。 0.76
Finally, Beimel et al (2019) propose a method for privately learning halfspaces in Rd, which is relevant to private Tukey Medians, but their method would restrict input examples (sentence embeddings) to a finite discrete set in Rd, a restriction we cannot tolerate. 最後に Beimel et al (2019) は、プライベートなTukey Medians に関連する Rd の半空間をプライベートに学習する方法を提案しているが、それらの手法は入力例(文埋め込み)を Rd の有限離散集合に制限する。 0.69
3 Sentence-level Privacy We now introduce our simple, strong privacy definition, along with concepts we use to satisfy it. 3 文レベルのプライバシ シンプルな、強力なプライバシ定義と、それを満たすために使用する概念を紹介します。 0.60
3.1 Definition In this work, we adopt the local notion of DP (Dwork et al , 2006), wherein each individual’s data is guaranteed privacy locally before being reported and centralized. 3.1 本研究では, DP(Dwork et al , 2006)のローカル概念を採用し, 各個人のデータは, 報告・集中する前に, 局所的にプライバシーが保証される。 0.81
Our mechanism M receives a single document from a single individual, x ∈ X . 我々の機構 m は、単一の個人 x ∈ x から単一の文書を受け取る。 0.81
We require that M provides indistinguishability between documents x, x(cid:48) differing in one sentence. M は 1 つの文で異なる文書 x, x(cid:48) 間で区別しにくいことを要求する。 0.64
Definition 3.1 (Sentence Privacy, SentDP). 定義 3.1 (Sentence Privacy, SentDP)。 0.89
Given any pair of documents x, x(cid:48) ∈ X that differ only in one sentence, we say that a mechanism M : X → O satisfies -SentDP if 一つの文でのみ異なる文書 x, x(cid:48) ∈ X の任意の対が与えられたとき、M : X → O の機構は、もし s-SentDP を満たす。 0.78
Pr[M(x) ∈ O] ≤ e Pr[M(x(cid:48)) ∈ O] Pr[M(x) ∈ O] ≤ e> Pr[M(x(cid:48)) ∈ O] 0.47
for any event O ⊆ O. いずれにせよ、O は O である。 0.44
We focus on producing an embedding of the given document x, thus the output space is O = Rd. 与えられた文書 x の埋め込みを生成することに集中するため、出力空間は O = Rd となる。 0.83
For instance, consider the neighboring documents x = (s1, s2, . . . , sk) and x(cid:48) = (s1, s(cid:48) 2, . . . , sk) that differ in the second sentence, i.e. s2, s(cid:48) 2 can be any pair of sentences in S 2. 例えば、隣接する文書 x = (s1, s2, . . . . , sk) と x(cid:48) = (s1, s(cid:48) 2, . . . . . . , sk) を第二文で異なる、すなわち s2, s(cid:48) 2 は S2 の任意の一対の文である。 0.87
This is a strong notion of privacy in comparison to existing definitions これは、既存の定義と比べてプライバシーの強い概念だ。 0.73
across NLP tasks. NLPタスクにまたがる。 0.69
However, we show that we can guarantee SentDP while still providing embeddings that are useful for downstream tasks like sentiment analysis and classification. しかし、感情分析や分類といった下流のタスクに有用な埋め込みを提供しながら、SentDPを保証できることを示す。 0.60
In theory, a SentDP private embedding z should be able to encode any information from the document that is not unique to a small subset of sentences. 理論的には、SentDP のプライベート埋め込み z は、文の小さなサブセットに固有の文書から情報をエンコードできるはずである。 0.57
For instance, z can reliably encode the sentiment of x as long as multiple sentences reflect the sentiment. 例えば、複数の文が感情を反映している限り、zはxの感情を確実にエンコードできる。 0.66
By the group privacy property of DP, which SentDP maintains, two documents differing in a sentences are a indistinguishable. SentDPが維持しているDPの集団プライバシー特性により、文で異なる2つの文書は区別不能である。 0.74
So, if more sentences reflect the sentiment, the more M can encode this into z without compromising on privacy. したがって、もっと多くの文が感情を反映すれば、プライバシーを犠牲にすることなく、Mはそれをzにエンコードできる。 0.54
3.2 Sentence Mean Embeddings Our approach is to produce a private version of the average of general-purpose sentence embeddings. 3.2 Sentence Mean Embeddings 我々のアプローチは、汎用文の埋め込みの平均のプライベートバージョンを作成することです。
訳抜け防止モード: 3.2 Sentence Mean Embeddings 私たちのアプローチは 汎用文埋め込みの平均のプライベートバージョンを生成する。
By the post-processing property of DP, this embedding can be used repeatedly in any fashion desired without degrading the privacy guarantee. dpの処理後特性により、この埋め込みは、プライバシの保証を損なうことなく、任意の方法で繰り返し使用できる。 0.62
Our method makes use of existing pre-trained sentence encoding models. 本手法は既存の事前学習文符号化モデルを用いる。 0.69
We denote this general sentence encoder as G : S → Rd. この一般文エンコーダを g : s → rd と表記する。 0.72
We show in our experiments that the mean of sentence embeddings, 実験では文の埋め込みの平均が示されている。 0.53
g(x) = 1 k (cid:88) g(x) = 1k (cid:88) 0.39
si∈x G(si) , シヤクス g(si) , 0.33
(1) maintains significant information unique to the document and is useful for downstream tasks like classification and sentiment analysis. (1) ドキュメント特有の重要な情報を保持し、分類や感情分析のような下流のタスクに役立ちます。 0.55
We call g(x) the document embedding since it summarizes the information in document x. 我々は、g(x) を文書埋め込みと呼び、それは文書 x に情報をまとめるからである。 0.66
While there exist other definitions of document embeddings (Yang et al , 2016; Thongtan and Phienthrakul, 2019; Bianchi et al , 2020), we decide to use averaging as it is a simple and established embedding technique (Bojanowski et al , 2017; Gupta et al , 2019; Li et al , 2020). 文書埋め込みには他にも定義がある(Yang et al , 2016; Thongtan and Phienthrakul, 2019; Bianchi et al , 2020)が、単純で確立された埋め込み技術(Bojanowski et al , 2017; Gupta et al , 2019; Li et al , 2020)として平均化を使うことにした。 0.84
3.3 Tukey Depth Depth is a concept in robust statistics used to describe how central a point is to a distribution. 3.3 Tukey Depth Depth は、ある点が分布に対してどれだけ中心であるかを記述するために用いられる頑健な統計学の概念である。
訳抜け防止モード: 3.3 Tukey Depth Depth はロバスト統計学における概念である ある点が分布の中心であることを示すためです
We borrow the definition proposed by Tukey (1975): Definition 3.2. 我々はTukey (1975): Definition 3.2 によって提案された定義を借用する。 0.66
Given a distribution P over Rd, the Tukey Depth of a point y ∈ Rd is Rd 上の分布 P が与えられたとき、点 y ∈ Rd のチューキー深さは、 0.81
TDP (y) = inf w∈Rd TDP (y) = inf w・Rd 0.44
P{y(cid:48) : w · (y(cid:48) − y) ≥ 0} . P{y(cid:48) : w · (y(cid:48) − y) ≥ 0} である。 0.88
In other words, take the hyperplane orthogonal to vector w, hw, that passes through point y. 言い換えると、点 y を通るベクトル w, hw に直交する超平面を取る。 0.62
Let 1 be the probability under P that a point lands on P w 2 be the probability that a one side of hw and let P w point lands on the other side, so P w 2 = 1. いくぞ 1 が p の下の確率で、ある点が p w 2 に着地する確率は、hw の一方の辺と p w の点がもう一方の辺に着地する確率であるから、p w 2 = 1 となる。
訳抜け防止モード: いくぞ 1 は P の下にある点が P w 2 に着地する確率は P の確率である。 hwの一方の辺で、Pwをもう一方の辺に着地させる。 P w 2 = 1 である。
y is considered deep if min(P w 2 ) is close to a half for all vectors w (and thus all h passing through y). y が深いと見なされるのは、min(p w 2 ) がすべてのベクトル w(したがって y を通るすべての h )の半値に近いときである。 0.76
The Tukey Median of distribution P , TMED(P ), is the set of all points with maximal Tukey Depth, 分布 P , TMED(P ) の Tukey Median は極大の Tukey Depth を持つすべての点の集合である。 0.81
1 +P w 1 , P w 1 + P w 1 , p w である。 0.54
TMED(P ) = arg max y∈Rd TMED(P ) = arg max y∂Rd 0.42
TDP (y) TDP (複数形 TDPs) 0.73
. (2) We only access the distribution P through a finite sample of i.i.d. points, Y = {y1, y2, . . . , yn}. . (2) 分布 p は i.i.d. 点 y = {y1, y2, . . , yn} の有限サンプルを通してのみアクセスする。 0.57
The Tukey Depth w.r.t. Y is given by タキー深さ w.r.t. y は 0.61
TDY (y) = inf w∈Rd TDY (y) = inf w・Rd 0.43
|{y(cid:48) ∈ Y : w · (y(cid:48) − y) ≥ 0}| , |{y(cid:48) ∈ Y : w · (y(cid:48) − y) ≥ 0}| , 0.49
and is at most half the size of our sample(cid:4) n サンプル (cid:4) n の半分くらいの大きさです 0.64
and the median, TMED(Y ), maximizes the depth そして中央値 TMED(Y ) は深さを最大化する 0.74
(cid:5). Generally, finding a point in TMED(Y ) is hard; SOTA algorithms have an exponential dependency in dimension (Chan, 2004), which is a non-starter when working with high-dimensional embeddings. (cid:5)。 一般に、TMED(Y ) の点を見つけることは困難であり、SOTA アルゴリズムは次元の指数関数的依存性を持つ(Chan, 2004)。
訳抜け防止モード: (cid:5)。 一般的に TMED(Y ) の点を見つけることは難しい。 ; SOTAアルゴリズムは次元に指数関数的依存を持つ(Chan, 2004)。 これは、高次元の埋め込みを扱う場合の開始子ではない。
However, there are efficient approximations which we will take advantage of. しかし、私たちが活用する効率的な近似がある。 0.66
2 4 DeepCandidate While useful and general, the document embedding g(x) does not satisfy SentDP. 2 4 deepcandidate 有用かつ一般的であるが、文書埋め込み g(x) は sentdp を満たさない。 0.56
We now turn to describing our privacy-preserving technique, DeepCandidate, which generates general, -SentDP document embeddings that preserve relevant information in g(x), and are useful for downstream tasks. プライバシー保護技術であるDeepCandidateは,g(x)に関連情報を保存し,下流のタスクに有用な汎用的な,SentDP文書の埋め込みを生成する。 0.65
To understand the nontrivial nature of this problem, we first analyze why the simplest, straightfoward approaches are insufficient. この問題の非自明性を理解するために、まず、最も単純で直線的なアプローチが不十分な理由を分析する。 0.65
Motivation. Preserving privacy for high dimensional objects is known to be challenging (Kamath et al , 2019; Feyisetan and Kasiviswanathan, 2021; Zhou et al , 2009) . モチベーション。 高次元オブジェクトのプライバシー保護は難しいことが知られている(Kamath et al , 2019; Feyisetan and Kasiviswanathan, 2021; Zhou et al , 2009)。 0.66
For instance, adding Laplace noise directly to g(x), as done to satisfy some privacy definitions (Feyisetan et al , 2019; Alvim et al , 2018), does not guarantee SentDP for any . 例えば、いくつかのプライバシー定義(feyisetan et al , 2019; alvim et al , 2018)を満たすために行われたように、g(x) にラプラスノイズを直接追加しても、senddp は保証されない。
訳抜け防止モード: 例えば、g(x) に直接 Laplace ノイズを加える。 いくつかのプライバシー定義を満たすために完了した(Feyisetan et al, 2019; Alvim et al, 2018)。 は SentDP を保証しない。
Recall that the embedding space is all of Rd. 埋め込み空間がすべて Rd であるということを思い出す。 0.71
A change in one sentence can lead to an unbounded change in g(x), since we do not put any restrictions on the general encoder G. Thus, no matter how much noise we add to g(x) we cannot satisfy SentDP. 1つの文の変化は、一般エンコーダ g にいかなる制限も課さないので、g(x) にどんなノイズを追加しても、senddp は満たせない。
訳抜け防止モード: 1つの文の変化は、g(x) の非有界な変化につながる可能性がある。 我々は一般エンコーダGにいかなる制限も課さないので。 g(x) にどんなにノイズを加えるにせよ、SentDP は満足できない。
A straightforward workaround might be to simply truncate embeddings such that they all lie in a limited set such as a sphere or hypercube as done in prior work (Li and Clifton, 2021; Abadi 簡単な回避策として、埋め込みを単に切り刻むだけで、それらはすべて前作(Li and Clifton, 2021; Abadi)のように球やハイパーキューブのような制限されたセットに置かれる。 0.61
In doing so, we bound how far et al , 2016). そうすることで、どこまで遠くまで行き着くか(2016年)。 0.58
apart embeddings can be for any two sentences, (cid:107)G(si) − G(s(cid:48) i)(cid:107)1, thus allowing us to satisfy SentDP by adding finite variance noise. 分割埋め込みは任意の2つの文 (cid:107)G(si) − G(s(cid:48) i)(cid:107)1 に対して可能であるので、有限分散雑音を加えることで SentDP を満たすことができる。 0.69
However, such schemes offer poor utility due to the high dimensional nature of useful document embeddings (we confirm this in our experiments). しかし,このようなスキームは,有用な文書埋め込みの高次元的な性質から,実用性に乏しい(本実験で確認する)。 0.75
We must add noise with standard deviation proportional to the dimension of the embedding, thus requiring an untenable degree of noise for complex encoders like BERT which embed into R768. 埋め込みの次元に比例する標準偏差のノイズを加える必要があるため、bert のような r768 に埋め込まれた複雑なエンコーダに対しては、意図しないレベルのノイズが必要となる。 0.61
Our method has three pillars: (1) sampling from a candidate set of public, non-private document embeddings to represent the private document, (2) using the Tukey median to approximate the document embedding, and (3) pre-training the sentence encoder, G, to produce relevant candidates with high Tukey depth for private document x. 提案手法は,(1)非公開文書を表すために,公文書の候補集合から抽出した非私文書の埋め込み,(2)文書の埋め込みをタキー中央値で近似する,(3)文書エンコーダGを事前学習して,文書xに対して高いタキー深さの候補を生成する,という3つの柱を有する。 0.73
4.1 Taking advantage of public data: 4.1 公共データを活用する 0.79
sampling from candidates 候補からのサンプリング 0.78
Instead of having our mechanism select a private embedding z from the entire space of Rd, we focus the mechanism to select from a set of m candidate embeddings, F , generated by m public, nonprivate documents. Rd の空間全体からプライベートな埋め込み z を選択する代わりに、m のパブリックな非プライベートな文書によって生成される m 候補埋め込み F の集合から選択する機構に焦点を当てる。
訳抜け防止モード: 我々の機構に代えて、Rd の全空間からプライベートな埋め込み z を選択する。 メカニズムに焦点を合わせ to select from a set of m candidate embeddeds, F, generated by m public, nonprivate document。
We assume the document x is drawn from some distribution µ over documents X . 文書 x は、文書 X 上のある分布 μ から引き出されると仮定する。 0.83
For example, if we know x is a restaurant review, µ may be the distribution over all restaurant reviews. 例えば、xがレストランレビューであると分かっている場合、μはレストランレビューの全てに分布する可能性がある。 0.79
F is then a collection of document embeddings over m publicly accessible documents xi ∼ µ, すると、f は m 上のドキュメント埋め込みの集合であり、公にアクセス可能な文書 xi, μ である。 0.63
F = {fi = g(xi) : x1, . . . , xm F = {fi = g(xi) : x1, . , xm. 0.42
iid∼ µ} , and denote the corresponding distribution over fi as g(µ). は、μ である。 fi 上の対応する分布を g(μ) として表す。 0.63
By selecting candidate documents that are similar in nature to the private document x, we inject an advantageous inductive bias into our mechanism, which is critical to satisfy strong privacy while preserving information relevant to x. プライベートドキュメントxと本質的に類似する候補ドキュメントを選択することで、xに関連する情報を保存しながら強力なプライバシーを満足する上で重要なメカニズムに有利な帰納的バイアスを注入する。 0.78
4.2 Approximating the document embedding: The Tukey Median 4.2 文書の近似 埋め込み: タキー中央値 0.68
We now propose a novel mechanism MTD, which approximates g(x) by sampling a candidate embedding from F . 本稿では,f からの埋め込み候補をサンプリングして g(x) を近似する新しいメカニズム mtd を提案する。 0.79
MTD works by concentrating probability on candidates with high Tukey Depth w.r.t. the set of sentence embeddings Sx = {G(si) : si ∈ x}. MTD は高いタキー深さ w.r.t の候補に対して確率を集中させることで作用し、文埋め込み Sx = {G(si) : si ∈ x} である。 0.71
We model sentences si from document x as i.i.d. draws from distribution νx. 文書 x から si を、分布 νx から引き出すものとしてモデル化する。 0.74
Then, Sx is k draws from g(νx), the distribution of sentences sx は g(νx) から引き出す k であり、文の分布は 0.68
from νx passing through G. Deep points are a good approximation of the mean under light assumptions. G を通る νx から。 深い点は、光の仮定の下での平均のよい近似である。 0.66
If g(νx) belongs to the set of halfspace-symmetric distributions (including all elliptic distributions e g Gaussians), we know that its mean lies in the Tukey Median (Zhu et al , 2020). g(νx) が半空間対称分布(すべての楕円分布 e g Gaussian を含む)の集合に属するならば、その平均は Tukey Median (Zhu et al , 2020) にある。 0.80
Formally, MTD is an instance of the exponential mechanism (Definition 2.2), and is defined by its utility function. 正式には、mddは指数関数(定義2.2)のインスタンスであり、そのユーティリティ関数によって定義される。 0.72
We set the utility of a candidate document embedding fi ∈ F to be an approximation of its depth w.r.t. sentence embeddings Sx, 我々は、fi ∈ f を埋め込みた候補文書の有用性を、その深さ w.r.t. 文埋め込み sx の近似として設定する。
訳抜け防止モード: fi ∈ f を埋め込みた候補文書の効用をその深さ w.r.t の近似として設定する。 文埋め込み sx ,
u(x, fi) = (cid:99)TDSx(fi) u(x, fi) = (cid:99)TDSx(fi) 0.48
(3) The approximation (cid:99)TDSx, which we detail in the (3) 近似 (cid:99)TDSx について詳述する。 0.54
Appendix, ciency. ‘deep candidate’ for sentence embeddings Sx. 付録、信任状。 文の埋め込みの 'deep candidate' は Sx を埋め込む。 0.56
is necessary for computational effiIf the utility of fi is high, we call it a fi の効用が高い場合は 計算 effi に必要です
訳抜け防止モード: fi の効用が高ければ、計算エフェクトに必要です。 我々は「a」と呼びます
. The more candidates sampled (higher m), the higher the probability that at least one has high depth. . より多くの候補がサンプリングされる(高いm)ほど、少なくとも一方が高い深さを持つ確率が高くなる。 0.58
Without privacy, we could report the deepest candidate, z = arg max when preserving privacy with MTD, increasing m has diminishing returns. プライバシがなければ、最も深い候補であるz = arg maxをmddで保護すると、mの増加はリターンを減少させます。 0.52
To see this, fix a set of sentence embeddings Sx for document x and the i.i.d. distribution over candidate embeddings fi ∼ g(µ). これを見るために、文書 x に対する一連の文埋め込み sx と候補埋め込み fi(μ) 上の i.i.d. 分布を固定する。 0.77
This induces a multinomial distribution over depth, これは深さの多項分布を誘導する。 0.68
(cid:99)TDSx(fi). (cid:99)TDSx(fi)。 0.90
However, fi∈F しかし、 fiftpf の略。 0.41
2 (cid:99)(cid:88) 2(cid:99)(cid:88) 0.39
(cid:98) k uj(x) = Pr[u(x, fi) = j], (cid:98)k uj(x) = Pr[u(x, fi) = j], 0.40
uj(x) = 1 , uj(x) = 1 , 0.85
j=0 where randomness is taken over draws of fi. j=0 fiの引き分けにランダム性が引き継がれます 0.41
For candidate set F and sentence embeddings Sx, the probability of MTD’s selected candidate, z, having (approximated) depth j∗ is given by aj∗(x)ej∗/2 2 (cid:99) j=0 aj(x)ej/2 候補集合 f と文埋め込み sx に対して、(近似)深さ j∗ を持つ mtd の選択候補 z の確率は aj∗(x)e,j∗/2 2 (cid:99) j=0 aj(x)e,j/2 によって与えられる。 0.75
Pr[u(x, z) = j∗] = Pr[u(x, z) = j∗] = 0.42
(cid:80)(cid:98) k (cid:80)(cid:98)k 0.38
(4) where aj(x) is the fraction of candidates in F with depth j w.r.t. the sentence embeddings of document x, Sx. (4) ここで aj(x) は、深さ j w.r.t の F の候補の分数である。
訳抜け防止モード: (4) ここで aj(x) は深さ j w.r.t の F の候補の分数である。 文書 x , Sx の埋め込み文。
For m sufficiently large, aj(x) concentrates around uj(x), so further increasing m does not increase the probability of MTD sampling a deep candidate. m が十分に大きい場合、aj(x) は uj(x) の周りに集中するため、さらに m が増えると、深い候補をサンプリングする MTD の確率は上昇しない。 0.75
Table 1: Conditions for deep candidates 表1:深い候補者の条件 0.86
 3 6 10 23  3 6 10 23 0.42
b 55 25 5 1 b 55 25 5 1 0.43
j∗ 5 3 2 1 j∗ 5 3 2 1 0.99
x. The general sentence encoder G used may not satisfy this ‘out of the box’. xだ 使用する一般文エンコーダGは、この 'out of the box' を満たすことができない。 0.76
If the distribution on document embeddings g(µ) is very scattered around the instance space R768, it can be exceedingly unlikely to have a deep candidate fi among sentence embeddings Sx. 文書埋め込み g(μ) 上の分布がインスタンス空間 R768 周辺に非常に分散している場合、文埋め込み Sx の中で深い候補fi を持つ可能性は極めて低い。 0.81
On the other hand, if distribution g(µ) is tightly concentrated in one region (e g ‘before training’ in Figure 3), then we may reliably have many deep candidates, but several will be poor representatives of the document embedding g(x). 一方、分布 g(μ) が 1 つの領域に密集している場合(図 3 の 'before training' など)、我々は確実に多くの深い候補を持つことができるが、いくつかは g(x) を埋め込んだ文書の貧弱な代表である。 0.80
To prevent this, we propose an unsupervised, efficient, and intuitive modification to the (pretrained) sentence encoder G. We freeze the weights of G and add additional perceptron layers mapping into the same embeddings space H : Rd → Rd, producing the extended encoder G(cid:48) = H ◦ G. Broadly, we train H to place similar document embeddings close together, and different embeddings far part. 我々はGの重みを凍結し、同じ埋め込み空間 H : Rd → Rd にマッピングするパーセプトロン層を追加し、拡張エンコーダ G(cid:48) = H > G を生成する。
訳抜け防止モード: これを防ぐため。 我々は(事前訓練された)文エンコーダGの教師なし、効率的、直感的な修正を提案する。 そして、同じ埋め込み空間 H : Rd → Rd に写像する追加のパーセプトロン層を加える。 拡張エンコーダG(cid:48 ) = H > G. Broadly. 私たちはHをトレーニングして、類似したドキュメントの埋め込みを密に配置します。
To do so, we leverage the assumption that a given domain’s distribution over document embeddings g(µ) can be parameterized by nc clusters, visualized as the black circles in Figure 3. そのために、ある領域の文書埋め込み上の分布 g(μ) が nc クラスタによってパラメータ化され、図 3 の黒円として可視化できるという仮定を利用する。 0.84
H’s aim is to recode sentence embeddings such that document embedding clusters are preserved, but spaced apart from each other. hの目標は、文書埋め込みクラスタが保存されるが、互いに間隔が離れるように、文埋め込みを書き換えることである。
訳抜け防止モード: H の目的は 文書埋め込みクラスタが保存されているが、互いに離れているような文埋め込みを再コードする。
By preserving clusters, we are more likely to have deep candidates (increased probability uj for high depth j). クラスターを保存することにより、より深い候補を持つ可能性が高い(高深度jの確率ujが増加する)。
訳抜け防止モード: クラスタを保存することで、私たちはよりありそうに見えます to have deep candidate ( increase probability uj for high depth j )
By spacing clusters apart, these deep candidates are more likely to come from the same or a nearby cluster as document x, and thus be good representatives. クラスタを分割することで、これらの深い候補はドキュメントxと同じまたは近くのクラスタから来ることが多くなり、したがってよい代表となる。 0.73
Note that H is domain-specific: we train separate H encoders for each dataset. Hはドメイン固有であり、データセット毎に別々のHエンコーダをトレーニングします。 0.66
4.4 Sampling Algorithm The final component of DeepCandidate is computing the approximate depth of a candidate for use as utility in the exponential mechanism as in Eq (3). 4.4 サンプリングアルゴリズム DeepCandidateの最終コンポーネントは、Eq (3) のような指数的メカニズムにおけるユーティリティとして使われる候補の近似深さを計算することである。 0.79
We use a version of the approximation algorithm proposed in Gilad-Bachrach and Burges 2012. gilad-bachrach と burges 2012 で提案された近似アルゴリズムのバージョンを用いる。 0.66
Intuitively, our algorithm computes the onedimensional depth of each fi among x’s sentence embeddings Sx on each of p random projections. 直感的には、このアルゴリズムは各 p 個のランダム射影に x の文 Sx を埋め込んだ各 fi の1次元深さを計算する。 0.72
The approximate depth of fi is then its lowest depth across the p projections. fi の近似深さは p の射影の最も低い深さである。 0.75
We are guaranteed that 私たちはそれを保証します 0.57
(cid:99)TDSx(fi) ≥ TDSx(fi). (cid:99)TDSx(fi) ≥ TDSx(fi)。 0.88
Due to space constraints, 空間の制約のためです 0.83
we leave the detailed description of the algorithm for the Appendix. アルゴリズムの詳細な説明は、Appendixに残します。 0.63
Theorem 4.1. MTD satisfies -Sentence Privacy 定理4.1。 MTDが「文プライバシー」を満足 0.40
Proof follows from the fact that (cid:99)TDSx(fi) has 証明は (cid:99)tdsx(fi) が持つという事実から従う 0.69
bounded sensitivity (changing one sentence can bounded sensitivity (複数形 bounded sensitivitys) 0.38
Figure 3: G(cid:48) is trained to encourage similar documents to embed close together and different documents to embed far apart. 図3:g(cid:48)は、類似したドキュメントを近接して埋め込むように促すように訓練されています。
訳抜け防止モード: 図3: G(cid:48 )が訓練されます 類似の文書を密に埋め込み 異なる文書を遠くに埋め込むように促します
We first compute embeddings of all (public, non-private) training set documents T with pretrained encoder G, TG = {ti = g まず、事前訓練されたエンコーダ G, TG = {ti = g を持つすべての(パブリックで非プライベートな)トレーニングセット文書 T の埋め込みを計算する。 0.67
(xi) : xi ∈ T} (blue dots). (xi) : xi ∈ T} (青い点)。 0.38
We run k-means to define nc clusters, and label each training document embedding ti ∈ TG with its cluster c. k-means を実行して nc クラスタを定義し、各トレーニング文書に ti ∈ TG をクラスタ c に埋め込みます。 0.79
We then train H to recode sentences to S(cid:48) x such that their mean g(cid:48) 次に H を訓練して文を S(cid:48) x に復号し、平均 g(cid:48) 0.74
(x) can be used by a linear model L to predict cluster c. (x) は線形モデル L でクラスタ c を予測することができる。 0.78
Our training objective is the cross-entropy loss of the linear model L in predicting c. トレーニングの目的は, C 予測における線形モデル L のクロスエントロピー損失である。 0.81
For numerical intuition, suppose m = 5000 (as in our experiments), ≥ b candidates have depth ≥ j∗, and all other candidates have depth 0, MTD will sample one of these deep candidates w.p. ≥ 0.95 under the settings in Table 1. 数値的直観のために、m = 5000 (実験の場合) ≥ b の候補が深さ ≥ j∗ を持ち、他の候補が深さ 0 のとき、mdd はこれらの深みのある候補 w.p. ≥ 0.95 を表 1 の条件下でサンプリングする。 0.77
For low  < 10 (high privacy), about 1% of candidates need to have high depth (≥ 3) in order to be reliably sampled. 高いプライバシ (high privacy) では、1% の候補が高い深さ (≥ 3) を持ち、確実にサンプリングされる必要がある。
訳抜け防止モード: 低い < 10 (高いプライバシー) の場合、候補者の約 1 % が要求する 確実にサンプリングするために、高い深さ( ≥ 3 )を持つ。
Note that this is only possible for documents with ≥ 6 sentences. これは6文以上の文書でのみ可能であることに注意。 0.73
For higher  ≥ 10, MTD will reliably sample low depth candidates even if there are only a few. 以上の ≥ 10 に対して、mdd は、たとえわずか数個でも、確実に低深度候補をサンプリングする。 0.67
From these remarks we draw two insights on これらの発言から、私たちは2つの洞察を引き出す。 0.47
how DeepCandidate can achieve high utility. DeepCandidateが高機能を実現する方法。 0.68
(1) More sentences A higher k enables greater depth, and thus a higher probability of sampling deep candidates with privacy. 1) より高い文 k はより深い深度を実現するため、より深い候補をプライバシでサンプリングする確率が高い。 0.78
We explore this effect in our experiments. 私たちはこの効果を実験で調べる。 0.76
(2) Tuned encoder By tuning the sentence encoder G for a given domain, we can modify the distribution over document embeddings g(µ) and sentence embeddings g(νx) to encourage deep candidates (high probability uj for deep j) that are relevant to document x. 2) 与えられた領域に対して文エンコーダGをチューニングすることにより、文書埋め込み g(μ) と文埋め込み g(νx) 上の分布を修正して、文書 x に関連する深い候補(深い j に対して高い確率 uj)を奨励することができる。 0.85
4.3 Taking advantage of structure: cluster-preserving embeddings 4.3 構造を活かす:クラスタ保存埋め込み 0.83
So far, we have identified that deep candidates from F can approximate g(x). これまでのところ、f からの深い候補は g(x) に近似できることがわかった。 0.65
To produce a good approximation, we need to ensure that 良い近似を生成するためには、確実にそれが必要です。 0.58
1) there reliably exist deep candidates for any given set of sentence embeddings Sx, and 1)任意の文組の埋め込みsxに対して、確実に深い候補が存在すること、及び 0.72
2) that these deep candidates are good representatives of document 2)これらの深層候補が文書のよい代表であること 0.79
(a) 20 News: Sweep  (a)20のニュース: スイープ! 0.72
(b) GoodReads: Sweep  (b)グッドリード:スイープ! 0.63
(c) IMDB: Sweep  (c) - インターネット・ムービー・データベース(英語) 0.40
(d) 20 News: Sweep k (d)20ニュース:Sweep k 0.82
(e) GoodReads: Sweep k (e)GoodReads: Sweep k 0.41
(f) IMDB: Sweep k (f)IMDB:Sweep k 0.42
Figure 4: Comparison of our mechanism with two baselines: truncation (Li and Clifton, 2021) and word-level Metric DP (Feyisetan et al , 2019) for both sentiment analysis (IMDB) and topic classification (GoodReads, 20News) on private, unsupervised embeddings. 図4: 感情分析 (IMDB) とトピック分類 (GoodReads, 20News) の双方に対して, truncation (Li and Clifton, 2021) と word-level Metric DP (Feyisetan et al , 2019) の2つのベースラインを比較した。 0.75
All plots show test-set macro F1 scores. 全てのプロットはテストセットマクロF1スコアを示す。 0.61
The top row shows performance vs. privacy parameter  (lower is better privacy). 上位の行は、パフォーマンス対プライバシパラメーター(より低い方がプライバシーが良い)を示している。 0.61
The bottom row shows performance vs. number of sentences k with  = 10. 下記の行は、n = 10 の文数 k に対するパフォーマンスを示している。 0.65
DeepCandidate outperforms both baselines across datasets and tasks. deepcandidateはデータセットとタスクのベースラインを上回っている。 0.50
Note that at a given , word-level Metric-DP is a significantly weaker privacy guarantee. ただし、単語レベルのメートル法dpは、ある場合、プライバシーの保証がかなり弱いことに注意してください。 0.43
only change depth of fi by one). fiの深さを1つだけ変える)。 0.69
We expand on this, too, in the Appendix. Appendixでもこれを拡張しています。 0.63
5 Experiments 5.1 Datasets We produce private, general embeddings of documents from three English-language datasets: 5 実験 5.1 データセット 3 つの英語データセットからドキュメントのプライベートな一般的な埋め込みを生成する。 0.64
Good Reads (Wan and McAuley, 2018) 60k book reviews from four categories: fantasy, history, romance, and childrens literature. Good Reads (Wan and McAuley, 2018) ファンタジー、歴史、ロマンス、児童文学の4つのカテゴリから60kの本をレビュー。 0.83
Train-48k | Val-8k | Test-4k Train-48k | Val-8k | Test-4k 0.47
20 News Groups (Lang, 1995) 11239 correspondences from 20 different affinity groups. 20のニュースグループ (Lang, 1995) 20の異なる親和性グループからの11239の対応。 0.73
to similarity between several groups Due (e g comp.os.ms-windows.m isc and comp.sys.ibm.pc.hard ware), the dataset is partitioned into nine categories. いくつかのグループ(例えばcomp.os.ms-windows.m iscとcomp.sys.ibm.pc.hard ware)間の類似性のため、データセットは9つのカテゴリに分割される。
訳抜け防止モード: to similarity between several group Due (e g comp.os.ms-windows.m isc and comp.sys.ibm.pc.hard ware ) データセットは9つのカテゴリに分けられます
Train-6743k | Val-2247k | Test-2249k 6743k:Val-2247k:テスト-2249k 0.39
IMDB (Maas et al , 2011) 29k movie reviews from the IMDB database, each labeled as a positive or negative review. IMDB (Maas et al , 2011) IMDBデータベースからの29kの映画レビュー。
訳抜け防止モード: IMDB (Maas et al, 2011 ) IMDBデータベースによる29kの映画レビュー。 それぞれ 肯定的あるいは否定的なレビューとして ラベル付けされています
Train-23k | Val-2k | Test-4k 列車23k | val-2k | 試験-4k 0.45
To evaluate utility of these unsupervised, private embeddings, we check if they are predictive of document properties. これらの非教師なしプライベートな埋め込みの有用性を評価するため、文書特性を予測しているかどうかを確認する。 0.55
For the Good Reads and 20 News Groups datasets, we evaluate how useful the embeddings are for topic classification. 優れた読み出しと20のニュースグループデータセットについて,埋め込みがトピック分類にどの程度有用かを評価する。 0.71
For IMDB we evaluate how useful the embeddings are for sentiment analysis (positive or negative review). IMDBでは,感情分析(肯定的,否定的レビュー)において埋め込みがいかに有用かを評価する。
訳抜け防止モード: IMDB がいかに有用かを評価する 埋め込みは感情分析(ポジティブまたはネガティブレビュー)のためのものです。
Our metric for performance is test-set macro F1 score. パフォーマンスの指標は、テストセットマクロf1スコアです。 0.63
5.2 Training Details & Setup For the general encoder, G : S → R768, we use SBERT (Reimers and Gurevych, 2019), a version of BERT fine-tuned for sentence encoding. 5.2 トレーニング詳細と設定 G : S → R768 一般的なエンコーダでは、文のエンコーダを微調整した SBERT (Reimers and Gurevych, 2019) を使用している。 0.74
Sentence embeddings are generated by mean-pooling output tokens. 文埋め込みは平均プール出力トークンによって生成される。 0.52
In all tasks, we freeze the weights of SBERT. すべてのタスクにおいて、SBERTの重みを凍結する。 0.65
The cluster-preserving recoder, H, as well as every classifier is implemented as an instance of a 4-layer MLP taking 768-dimension inputs and only differing on output dimension. クラスタ保存リコーダHと各分類器は、768次元入力を受ける4層MLPのインスタンスとして実装され、出力寸法のみが異なる。 0.80
We denote an instance of this MLP with output dimension o as MLPo. 出力次元 o の MLP のインスタンスを MLPo と表現する。 0.62
We run 5 trials of each experiment with randomness taken over the privacy mechanisms, and plot the mean along with a ± 1 standard deviation envelope. それぞれの実験の5つの試行を行い、プライバシーメカニズムをランダムに処理し、±1標準偏差エンベロープとともに平均をプロットする。 0.81
DeepCandidate: The candidate set F consists of 5k document embeddings from the training set, each containing at least 8 sentences. deepcandidate: 候補セットfはトレーニングセットから5kドキュメント埋め込みで構成され、それぞれに少なくとも8文を含む。 0.77
To train G(cid:48), we find nc = 50 clusters with k-means. g(cid:48) を訓練するには、k-平均を持つ nc = 50 クラスターを見つける。 0.64
We train a classifier Cdc = MLPr on document embeddings g(cid:48)(x) to predict class, where r is the number of classes (topics or sentiments). 文書埋め込み g(cid:48)(x) 上で分類器 Cdc = MLPr をトレーニングしてクラスを予測する。
訳抜け防止モード: 文書埋め込み g(cid:48)(x ) 上で分類器 Cdc = MLPr を訓練する。 rがクラスの数(トピックや感情)であるクラスを予測する。
5.3 Baselines We compare the performance of DeepCandidate with 4 baselines: Non-private, Truncation, Word-level Metric-DP, and Random Guesser. 5.3のベースライン 私たちは、deepcandidateのパフォーマンスと、非プライベート、切断、単語レベルのメトリックdp、ランダム推測の4つのベースラインを比較します。
訳抜け防止モード: 5.3 ベースライン DeepCandidateのパフォーマンスを4つのベースラインと比較する。 Truncation, Word - Level Metric - DP, Random Guesser
Non-private: This demonstrates the usefulness of non-private sentence-mean document embeddings g(x). 非プライベート:これは非プライベートな文-平均文書埋め込みg(x)の有用性を示す。 0.62
We generate g(x) for every document ドキュメントごとにg(x)を生成します 0.85
using SBERT, and then train a classifier Cnonpriv = MLPr to predict x’s label from g(x). SBERTを使用して、次に分類器Cnonpriv = MLPrをトレーニングし、g(x)からxのラベルを予測する。 0.78
Truncation: We adopt the method from Li and Clifton 2021 to truncate (clip) sentence embeddings within a box in R768, thereby bounding sensitivity as described at the beginning of Section 4. トラニケーション: 第4節の冒頭で述べたように,Li と Clifton 2021 から R768 の箱内に (clip) 文を埋め込む方法を採用する。 0.59
Laplace noise is then added to each dimension. その後、ラプラスノイズが各次元に追加される。 0.53
Documents with more sentences have proportionally less noise added due to the averaging operation reducing sensitivity. 文数が多い文書は、平均化操作による感度低下によりノイズが比例的に減少している。 0.60
Word Metric-DP (MDP): The method from Feyisetan et al 2019 satisfies -word-level metric DP by randomizing words. word metric-dp (mdp): feyisetan et al 2019の手法は単語をランダム化することで単語レベルのメートル法dpを満たす。 0.60
We implement MDP to produce a randomized document x(cid:48), compute g(x(cid:48)) with SBERT, and predict class using Cnonpriv. ランダム化された文書x(cid:48)を生成し、SBERTでg(x(cid:48)を計算し、Cnonprivを用いてクラスを予測する。 0.63
Random Guess: To set a bottom-line, we show the theoretical performance of a random guesser only knowing the distribution of labels. Random Guess: ボトムラインを設定するには、ラベルの分布を知るだけでランダムな推測器の理論的性能を示す。 0.76
5.4 Results & Discussion How does performance change with privacy parameter ? 5.4 結果と議論 プライバシパラメーターによるパフォーマンスの変化は? 0.75
This is addressed in Figures 4a to 4c. これは図4aから4cで表される。 0.76
Here, we observe how the test set macro F1 score changes with privacy parameter  (a lower  offers stronger privacy). ここでは,テストセットのマクロf1スコアが,プライバシパラメーター s でどのように変化するかを観察した。 0.61
Generally speaking, for local differential privacy,  < 10 is taken to be a strong privacy regime, 10 ≤  < 20 is moderate privacy, and  ≥ 25 is weak privacy. 一般的には、局所的な差分プライバシーについては、 > < 10 は強力なプライバシー体制とされ、10 ≤ > < 20 は適度なプライバシー、 > ≥ 25 は弱いプライバシーである。 0.65
The truncation baseline mechanism does increase accuracy with increasing , but never performs much better than the random guesser. トランザクションのベースライン機構は s を増加させるにつれて精度が向上するが、乱数推定器よりもうまく機能しない。 0.64
This is to be expected with high dimension embeddings, since the standard deviation of noise added increases linearly with dimension. ノイズの標準偏差は次元とともに直線的に増加するので、これは高次元の埋め込みで期待できる。 0.69
The word-level MDP mechanism performs significantly better than truncation, achieving relatively good performance for  ≥ 30. 単語レベルのMDP機構は、トランケーションよりも大幅に優れており、比較的良い性能が30以上である。 0.62
There are two significant caveats, however. しかし、重要な点が2つある。 0.67
First, is the privacy definition: as discussed in the Introduction, for the same , word-level MDP is strictly weaker than SentDP. まず、プライバシーの定義である: 序文で述べたように、単語レベルのMDPはSentDPよりも厳格に弱い。
訳抜け防止モード: まずプライバシの定義について : 序文で述べられているように 単語-レベル MDP は SentDP よりも厳格に弱い。
The second caveat is the level of  at which privacy is achieved. 第二の注意点として、プライバシが達成されるレベルが > である。 0.55
Despite a weaker privacy definition, the MDP mechanism does not achieve competitive performance until the weakprivacy regime of . プライバシー定義の弱さにもかかわらず、MDPのメカニズムが競争力を発揮することはない。 0.62
We suspect this is due to two reasons. これは2つの理由によると思われる。 0.66
First, is the fact that the MDP mechanism does not take advantage of contextual information in each sentence as our technique does; randomizing each word independently does not use higher level linguistic information. 第一に、MDPメカニズムは、我々の手法のように各文の文脈情報を利用せず、各単語を独立にランダム化することは、より高いレベルの言語情報を使用しない。 0.76
Second, is the fact that the MDP mechanism does not use domain- 第二に、MDPメカニズムがドメインを使用しないという事実です。 0.70
specific knowledge as our mechanism does with use of relevant candidates and domain specific sentence encodings. 我々のメカニズムのような特定の知識は、関連する候補とドメイン固有の文エンコーディングを使用する。 0.62
In comparison, DeepCandidate offers strong utility across tasks and datasets for relatively low values of , even into the strong privacy regime. 対照的にDeepCandidateは、強いプライバシ体制でさえも、比較的低い値のaのタスクやデータセットに対して、強力なユーティリティを提供します。 0.59
Beyond  = 25, the performance of DeepCandidate tends to max out, approximately 10-15% below the non-private approach. シュ=25を超えると、DeepCandidateのパフォーマンスは最大になる傾向にあり、非プライベートなアプローチより約10~15%低い。 0.65
This is due to the fact that DeepCandidate offers a noisy version of an approximation of the document embedding g(x) – it cannot perform any better than deterministically selecting the deepest candidate, and even this candidate may be a poor representative of x. これは、DeepCandidate が g(x) を埋め込んだ文書の近似のノイズのあるバージョンを提供しているという事実によるもので、最も深い候補を決定的に選び、この候補でさえ x の貧弱な代表者かもしれない。 0.74
We consider this room for improvement, since there are potentially many other ways to tune G(cid:48) and select the candidate pool F such that deep candidates are nearly always good representatives of a given document x. G(cid:48) をチューニングし、ある文書 x のほぼ常に良い代表であるような候補プール F を選択する他の方法が考えられるので、この改善の余地を考える。
訳抜け防止モード: 私たちはこの改善の余地を考えます。 G(cid:48) をチューニングする方法は他にも多数存在する。 候補プールFを選択して 深層候補は ほぼ常に 与えられた文書xの 良い代表者だ
How does performance change with the number of sentences k? 文数kでパフォーマンスはどのように変化するのか? 0.79
This is addressed in Figures 4d to 4f. これは図4dから4fで表される。 0.74
We limit the test set to those documents with k in the listed range on the x-axis. テストセットは、x軸上のリスト範囲のkを持つドキュメントに制限します。 0.72
We set  = 10, the limit of the strong privacy regime. われわれは、強いプライバシー体制の限界を10と設定した。 0.66
Neither baseline offers performance above that of the random guesser at this value of . どちらのベースラインも、この値 y のランダムな推測値以上の性能は提供しない。 0.60
DeepCandidate produces precisely the performance we expect to see: documents with more sentences result in sampling higher quality candidates, confirming the insights of Section 4.2. DeepCandidateは、私たちが期待するパフォーマンスを正確に生成します。より多くの文を持つドキュメントは、より高い品質の候補をサンプリングし、セクション4.2の洞察を確認します。
訳抜け防止モード: DeepCandidateは、私たちが期待するパフォーマンスを正確に生成する : 文数の多い文書は, 質の高い候補を抽出し, 第4章2節の知見を確認する。
Across datasets and tasks, documents with more than 10-15 sentences tend to have high quality embeddings. データセットとタスク間で、10~15文以上のドキュメントは高品質な埋め込みを持つ傾向がある。 0.62
6 Conclusions and Future Work We introduce a strong and interpretable local privacy guarantee for documents, SentDP, along with DeepCandidate, a technique that combines principles from NLP and robust statistics to generate general -SentDP embeddings. 6 結論と今後の研究として,nlp の原則とロバスト統計を組み合わせる手法である deepcandidate とともに,文書に対する強力かつ解釈可能なローカルプライバシ保証 (senddp) を導入する。 0.68
Our experiments confirm that such methods can outperform existing approaches even with with more relaxed privacy guarantees. 本実験は, プライバシー保証が緩和された場合でも, 既存の手法よりも優れた手法であることが確認された。 0.48
Previous methods have argued that it is “virtually impossible” to satisfy pure local DP (Feyisetan et al , 2019; Feyisetan and Kasiviswanathan, 2021) at the word level while capturing linguistic semantics. 従来の手法では、言葉レベルで純粋なローカルDP(Feyisetan et al , 2019; Feyisetan and Kasiviswanathan, 2021)を満たすことは「事実上不可能」であると主張している。 0.75
Our work appears to refute this notion at least at the document level. 私たちの研究はこの概念を少なくともドキュメントレベルでは否定しているようです。 0.56
To follow up, we plan to explore other approaches (apart from k-means) of capturing the structure of the embedding distribution g(µ) to encourage better candidate selection. 続いて,組込み分布g(μ)の構造を捉え,よりよい候補選択を促す他の手法(k-meansを除く)について検討する。 0.74
We also plan to 計画もあります 0.66
experiment with decoding private embeddings back to documents by using novel candidates produced by a generative model trained on F . fで訓練された生成モデルによって生成された新しい候補を用いて、プライベート埋め込みをドキュメントにデコードする実験。 0.67
Acknowledgements KC and CM would like to thank ONR under N00014-20-1-2334. 覚書 KCとCMはONRにN00014-20-1-2334で感謝します。 0.50
KM gratefully acknowledges funding from an Amazon Research Award and Adobe Unrestricted Research Gifts. KMは、Amazon Research AwardとAdobe Unrestricted Research Giftsからの資金提供に感謝している。 0.75
We would would also like to thank our reviewers for their insightful feedback. また、洞察に富んだフィードバックに対して、レビュアーに感謝します。 0.55
References Martín Abadi, Andy Chu, Ian Goodfellow, H. Brendan McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. 参照: Martín Abadi、Andy Chu、Ian Goodfellow、H. Brendan McMahan、Ilya Mironov、Kunal Talwar、Li Zhang。
訳抜け防止モード: 参考文献: Martín Abadi, Andy Chu, Ian Goodfellow, H. Brendan McMahan イリヤ・ミロノフ(Ilya Mironov)、クナル・タルワル(Kunal Talwar)、李張(Li Zhang)。
2016. Deep Learning with Differential Privacy. 2016. 差分プライバシーによるディープラーニング。 0.50
Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, pages 308–318. 2016 ACM SIGSAC Conference on Computer and Communications Security、308–318頁。 0.36
ArXiv: 1607.00133. ArXiv:1607.00133。 0.76
Mohamed Abdalla, Moustafa Abdalla, Graeme Hirst, and Frank Rudzicz. Mohamed Abdalla、Moustafa Abdalla、Graeme Hirst、Frank Rudzicz。 0.35
2020. Exploring the PrivacyPreserving Properties of Word Embeddings: Algorithmic Validation Study. 2020. 単語埋め込みのプライバシー保護特性を探る:アルゴリズムによる検証研究 0.59
Journal of Medical Internet Research, 22(7):e18055. Journal of Medical Internet Research, 22(7):e18055 0.40
Emily Alsentzer, John Murphy, William Boag, WeiHung Weng, Di Jindi, Tristan Naumann, and Matthew McDermott. Emily Alsentzer、John Murphy、William Boag、WeiHung Weng、Di Jindi、Tristan Naumann、Matthew McDermott。 0.74
2019. Publicly available clinical bert embeddings. 2019. 利用可能な臨床用bert埋め込み。 0.52
In Proceedings of the 2nd Clinical Natural Language Processing Workshop, pages 72–78. 第2回臨床自然言語処理ワークショップ紀要72-78頁。 0.70
Mário Alvim, Konstantinos Chatzikokolakis, Catuscia Palamidessi, and Anna Pazii. Mário Alvim, Konstantinos Chatzikokolakis, Catuscia Palamidessi, Anna Pazii 0.32
2018. Invited Paper: Local Differential Privacy on Metric Spaces: In 2018 Optimizing the Trade-Off with Utility. 2018. Invited Paper: メトリックスペースのローカル差分プライバシー: 2018年、ユーティリティによるトレードオフの最適化。 0.61
IEEE 31st Computer Security Foundations Symposium (CSF), pages 262–267. IEEE 31st Computer Security Foundations Symposium (CSF) 262-267頁。 0.44
ISSN: 2374-8303. issn: 2374-8303。 0.36
Eugene Bagdasaryan, Omid Poursaeed, and Vitaly Shmatikov. Eugene Bagdasaryan, Omid Poursaeed, Vitaly Shmatikov 0.29
2019. Differential privacy has disparate impact on model accuracy. 2019. 差分プライバシーはモデルの精度に異なる影響を与える。 0.55
Advances in Neural Information Processing Systems, 32:15479–15488. ニューラル情報処理システムの進歩, 32:15479–15488。 0.68
Amos Beimel, Shay Moran, Kobbi Nissim, and Uri Stemmer. Amos Beimel、Shay Moran、Kobbi Nissim、Uri Stemmer。 0.30
2019. Private Center Points and Learning of Halfspaces. 2019. プライベートセンターポイントとハーフスペースの学習。 0.57
arXiv:1902.10731 [cs, stat]. arXiv:1902.10731 [cs, stat] 0.41
ArXiv: 1902.10731. ArXiv: 1902.10731。 0.40
Federico Bianchi, Silvia Terragni, and Dirk Hovy. フェデリコ・ビアンチ、シルヴィア・テラグニ、ディルク・ホヴィ。 0.45
2020. topic: Contextualized document embeddings improve topic coherence. 2020. トピック: コンテキスト化されたドキュメントの埋め込みはトピックコヒーレンスを改善する。 0.48
arXiv preprint arXiv:2004.03974. arXiv preprint arXiv:2004.03974 0.36
Pre-training is a hot プレトレーニングはホットです 0.75
Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Piotr Bojanowski、Edouard Grave、Armand Joulin、Tomas Mikolov。 0.32
2017. Enriching word vectors with subword information. 2017. 単語ベクトルをサブワード情報で強化する。 0.54
Transactions of the Association for Computational Linguistics, 5:135–146. 計算言語学協会 (association for computational linguistics, 5:135–146)。 0.54
Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, Alina Oprea, and Colin Raffel. ニコラス・カーリーニ、フローリアン・トラム、エリック・ウォレス、マシュー・ジャギエルスキー、アリエル・ハーバート=ヴォス、キャサリン・リー、アダム・ロバーツ、トム・ブラウン、ドーン・ソング、ウルフ・エルリングソン、アリナ・オプレア、コリン・ラフェル。
訳抜け防止モード: Nico Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski アリエル・ハーバート - ヴォス、キャサリン・リー、アダム・ロバーツ、トム・ブラウン。 Dawn Song、Ulfar Erlingsson、Alina Oprea、Colin Raffel。
2020. Extracting Training Data from Large LanarXiv:2012.07805 [cs]. 2020. Large LanarXiv:2012.07805 [cs] によるトレーニングデータの抽出 0.57
ArXiv: guage Models. ArXiv: ゲージモデル。 0.72
2012.07805. 2012.07805. 0.35
Ricardo Silva Carvalho, Theodore Vasiloudis, and Oluwaseyi Feyisetan. Ricardo Silva Carvalho、Theodore Vasiloudis、Oluwaseyi Feyisetan。 0.31
2021. Tem: High utility metric differential privacy on text. 2021. Tem: テキスト上の高ユーティリティメトリックの差分プライバシー。 0.58
arXiv preprint arXiv:2107.07928. arXiv preprint arXiv:2107.07928 0.35
Timothy M Chan. ティモシー・m・チャン 0.42
2004. An optimal randomized algorithm for maximum tukey depth. 2004. 最大タキー深さに対する最適ランダム化アルゴリズム 0.60
In SODA, volume 4, pages 430–436. SODA』第4巻、430-436頁。 0.60
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. Bert: Pre-training of deep bidirectional transformers for language understanding. 2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.61
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186。
訳抜け防止モード: 計算言語学会北米支部2019年大会の成果 : ヒューマン・ランゲージ・テクノロジー Volume 1 (Long and Short Papers ) 4171–4186頁。
Cynthia Dwork. 2006. シンシア・ドワーク 2006. 0.44
Differential Privacy, volume 差分プライバシー,ボリューム 0.69
4052. Cynthia Dwork, Krishnaram Kenthapadi, Frank McSherry, Ilya Mironov, and Moni Naor. 4052. シンシア・ドワーク、クリシュナラム・ケンタパディ、フランク・マクシェリー、イリヤ・ミロノフ、モニ・ナール。 0.47
2006. Our Data, Ourselves: Privacy Via Distributed Noise Generation. 2006. 私たちのデータには、分散型ノイズ生成によるプライバシがあります。 0.45
In Serge Vaudenay, editor, Advances in Cryptology - EUROCRYPT 2006, volume 4004, pages 486–503. en:serge vaudenay, editor, advances in cryptology - eurocrypt 2006 volume 4004, pages 486–503において。 0.72
Springer Berlin Heidelberg, Berlin, Heidelberg. ベルリン・ハイデルベルク、ベルリン・ハイデルベルク出身。 0.65
Series Title: Lecture Notes in Computer Science. シリーズタイトル:コンピュータサイエンスの講義ノート。 0.69
Cynthia Dwork, Aaron Roth, et al 2014. Cynthia Dwork, Aaron Roth, et al 2014 0.38
The algorithmic foundations of differential privacy. 差分プライバシーのアルゴリズムの基礎。 0.67
Found. Trends Theor. 見つかった 傾向理論家。 0.58
Comput. Sci. Comput Sci 0.25
, 9(3-4):211–407. , 9(3-4):211–407. 0.36
Oluwaseyi Feyisetan, Borja Balle, Thomas Drake, and Tom Diethe. oluwaseyi feyisetan、borja balle、thomas drake、tom diethe。 0.36
2019. Privacy- and Utility-Preserving Textual Analysis via Calibrated Multivariate Perturbations. 2019. 校正された多変量摂動によるプライバシおよびユーティリティ保存テキスト解析。 0.49
Oluwaseyi Feyisetan and Shiva Kasiviswanathan. Oluwaseyi FeyisetanとShiva Kasiviswanathan。 0.37
2021. In ProPrivate release of text embedding vectors. 2021. ProPrivateでは、テキスト埋め込みベクターのリリース。 0.60
ceedings of the First Workshop on Trustworthy Natural Language Processing, pages 15–27. The First Workshop on Trustworthy Natural Language Processing(英語) 15-27頁。 0.82
Ran Gilad-Bachrach and Chris J. C. Burges. gilad-bachrach と chris j. c. burges である。 0.49
2012. The 2012. その... 0.31
Median Hypothesis. Prakhar Gupta, Matteo Pagliardini, and Martin Jaggi. 中間仮説。 prakhar gupta氏、matteo pagliardini氏、martin jaggi氏。 0.48
2019. Better word embeddings by disentangling In Proceedings of contextual n-gram information. 2019. コンテキスト n-gram 情報のプロセッシングによる単語埋め込みの改善。 0.53
the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 933–939. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 933–939。
訳抜け防止モード: 計算言語学会北米支部2019年大会 : 人間言語技術 第1巻(長編・短編)、933-939頁。
Yangsibo Huang, Zhao Song, Danqi Chen, Kai Li, and Sanjeev Arora. yangsibo huang氏、zhao song氏、danqi chen氏、kai li氏、sanjeev arora氏。 0.53
2020. TextHide: Tackling data privacy in language understanding tasks. 2020. texthide: 言語理解タスクでデータプライバシに取り組むこと。 0.59
In Findings 発見 0.38
of the Association for Computational Linguistics: EMNLP 2020, pages 1368–1382, Online. the association for computational linguistics: emnlp 2020, pages 1368–1382, online (英語) 0.82
Association for Computational Linguistics. Ganesh Jawahar, Benoît Sagot, and Djamé Seddah. 計算言語学会会員。 ガニーシュ・ジャワール、ベノシェ・サゴ、ジャメ・セダ。 0.42
2019. What does bert learn about the structure of language? 2019. bertは言語の構造について何を学ぶのか? 0.60
In ACL 2019-57th Annual Meeting of the Association for Computational Linguistics. ACL 2019-57th Annual Meeting of the Association for Computational Linguistics に参加して 0.40
Peter Kairouz, H Brendan McMahan, Brendan Avent, Aurélien Bellet, Mehdi Bennis, Arjun Nitin Bhagoji, Kallista Bonawitz, Zachary Charles, Graham Cormode, Rachel Cummings, et al 2019. Peter Kairouz, H Brendan McMahan, Brendan Avent, Aurélien Bellet, Mehdi Bennis, Arjun Nitin Bhagoji, Kallista Bonawitz, Zachary Charles, Graham Cormode, Rachel Cummingsなどなど。 0.38
Advances and open problems in federated learning. 連合学習における進歩とオープンな問題。 0.67
arXiv preprint arXiv:1912.04977. arXiv preprint arXiv:1912.04977 0.36
Gautam Kamath, Gautam Kamath 0.28
Jerry Li, Vikrant Singhal, and Jonathan Ullman. ジェリー・リー、ヴィクラント・シンガル、ジョナサン・ウルマン。 0.46
2019. Privately Learning HighDimensional Distributions. 2019. 個人学習による高次元分布。 0.50
In Conference on Learning Theory, pages 1853–1902. 1853-1902年 学習理論に関する会議。 0.79
PMLR. ISSN: 26403498. PMLR。 issn: 26403498。 0.35
Gavin Kerrigan, Dylan Slack, and Jens Tuyls. Gavin Kerrigan、Dylan Slack、Jens Tuyls。 0.30
2020. Differentially Private Language Models Benefit from Public Pre-training. 2020. 公的な事前学習に相応しい個人言語モデル。 0.51
arXiv:2009.05886 [cs]. arXiv:2009.05886 [cs] 0.37
ArXiv: 2009.05886. 2009年、05886頁。 0.49
Ken Lang. 1995. ケン・ラング 1995. 0.46
Home Page for 20 Newsgroups Data 20のニュースグループのためのホームページ 0.63
Set. Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, and Lei Li. 設定。 Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li 0.51
2020. On the sentence embeddings from bert for semantic textual similarity. 2020. 意味的テクスト的類似性のための bert からの文埋め込みについて 0.47
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 9119–9130. 自然言語処理における経験的手法(emnlp)に関する2020年の会議では、9119-9130ページが扱われた。
訳抜け防止モード: 自然言語処理における経験的手法に関する2020年会議(EMNLP)の開催報告 9119-9130頁。
Tao Li and Chris Clifton. タオ・リーとクリス・クリフトン 0.60
2021. Differentially Private Imaging via Latent Space Manipulation. 2021. 潜時空間操作による微分プライベートイメージング 0.49
arXiv:2103.05472 [cs]. arXiv:2103.05472 [cs] 0.37
ArXiv: 2103.05472. ArXiv: 2103.05472。 0.78
Xiaodong Liu, Pengcheng He, Weizhu Chen, and Jianfeng Gao. Xiaodong Liu、Pengcheng He、Weizhu Chen、Jianfeng Gao。 0.70
2019a. Multi-task deep neural networks for natural language understanding. 2019年。 自然言語理解のためのマルチタスク深層ニューラルネットワーク 0.75
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4487–4496. 計算言語学会第57回年次大会紀要』4487-4496頁。 0.47
Khalil Mrini, Emilia Farcas, and Ndapa Nakashole. Khalil Mrini、Emilia Farcas、Ndapa Nakashole。 0.32
2021. Recursive tree-structured self-attention for In Proceedings of the answer sentence selection. 2021. 回答文選択の手続きにおける再帰的木構造的自己対応 0.54
59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 4651–4661, Online. 59th annual meeting of the association for computational linguistics and the 11th international joint conference on natural language processing ( volume 1: long papers, pages 4651–4661, online (英語)
訳抜け防止モード: 第59回計算言語学会大会と第11回自然言語処理国際会議(巻1編長編) 4651-4661頁。
Association for Computational Linguistics. Xudong Pan, Mi Zhang, Shouling Ji, and Min Yang. 計算言語学会会員。 Xudong Pan、Mi Zhang、Shouling Ji、Min Yang。 0.42
2020. Privacy risks of general-purpose language models. 2020. 汎用言語モデルのプライバシーリスク。 0.52
In 2020 IEEE Symposium on Security and Privacy (SP), pages 1314–1331. 2020年IEEE Symposium on Security and Privacy (SP) 1314–1331頁。 0.37
IEEE. Chen Qu, Weize Kong, Liu Yang, Mingyang Zhang, Michael Bendersky, and Marc Najork. IEEE。 Chen Qu、Weize Kong、Liu Yang、Mingyang Zhang、Michael Bendersky、Marc Najork。 0.37
2021. Privacy-Adaptive BERT for Natural Language Understanding. 2021. 自然言語理解のためのプライバシ適応BERT 0.54
ArXiv: 2104.07504. ArXiv: 2104.07504。 0.79
arXiv:2104.07504 [cs]. arXiv:2104.07504 [cs] 0.37
Nils Reimers and Iryna Gurevych. Nils ReimersとIryna Gurevych。 0.81
2019. SentenceBERT: Sentence Embeddings using Siamese BERTNetworks. 2019. SentenceBERT: Siamese BERTNetworksを使用したSentence Embeddings。 0.63
ArXiv: 1908.10084. ArXiv: 1908.10084。 0.40
arXiv:1908.10084 [cs]. arXiv:1908.10084 [cs] 0.37
Congzheng Song and Ananth Raghunathan. Congzheng Song と Ananth Raghunathan の略。 0.81
2020. in Embedding Models. 2020. 埋め込みモデル。 0.45
Information Leakage arXiv:2004.00053 [cs, stat]. 情報漏洩arxiv:2004.00053 [cs, stat] 0.68
ArXiv: 2004.00053. 2004.00053。 0.49
Patrick Verga, Daniel Andor, Emma Strubell, David Weiss, and Andrew McCallum. Patrick Verga、Daniel Andor、Emma Strubell、David Weiss、Andrew McCallum。 0.37
2018. Linguistically-infor med self-attention for semantic In Proceedings of the 2018 Conferrole labeling. 2018. 2018年コンフェロレラベリングの手続きにおける意味論に対する言語的不完全自認 0.44
ence on Empirical Methods in Natural Language Processing, pages 5027–5038. 自然言語処理における経験的手法について、5027-5038頁。 0.52
Tan Thongtan and Tanasanee Phienthrakul. Tan Thongtan と Tanasanee Phienthrakul の略。 0.77
2019. Sentiment classification using document embeddings In Proceedings of trained with cosine similarity. 2019. 文書埋め込みによる感性分類 : コサイン類似性の訓練による証明 0.54
the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, pages 407–414. 第57回計算言語学会年次総会:学生研究ワークショップ,407-414ページ 0.64
John W Tukey. 1975. ジョン・w・タキー 1975. 0.48
Mathematics and the picturIn Proceedings of the International ing of data. 数学とピクチュア データの国際単位の証明 0.44
Congress of Mathematicians, Vancouver, 1975, volume 2, pages 523–531. 1975年、バンクーバー数学会議、第2巻、523-531頁。 0.68
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。
訳抜け防止モード: yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
2019b. Roberta: A robustly optimized bert pretraining approach. 2019年。 roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.63
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.36
Mengting Wan and Julian J. McAuley. ジュリアン・J・マコーリー(Julian J. McAuley)。 0.49
2018. Item recommendation on monotonic behavior chains. 2018. モノトニックな行動連鎖の項目推奨。 0.53
In Proceedings of the 12th ACM Conference on Recommender Systems, RecSys 2018, Vancouver, BC, Canada, October 2-7, 2018, pages 86–94. 第12回ACM Conference on Recommender Systems, RecSys 2018, Vancouver, BC, Canada, October 2-7, 2018, page 86–94
訳抜け防止モード: 第12回 ACM Conference on Recommender Systems, RecSys 2018 に参加して バンクーバー, BC, カナダ, 2018年10月2日 - 7日 86-94頁。
ACM. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. acm。 Andrew L. Maas、Raymond E. Daly、Peter T. Pham、Dan Huang、Andrew Y. Ng、Christopher Potts。 0.74
2011. Learning word vectors for sentiment analysis. 2011. 感情分析のための単語ベクトルの学習 0.60
In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 142–150, Portland, Oregon, USA. 第49回計算言語学会年次総会の議事録:人間言語技術142-150ページ、オレゴン州ポートランド。 0.56
Association for Computational Linguistics. Frank McSherry and Kunal Talwar. 計算言語学会会員。 フランク・マクシェリーとクナル・タルワー。 0.51
2007. Mechanism 2007. メカニズム 0.61
Design via Differential Privacy. 差分プライバシーによる設計。 0.75
Shangyu Xie and Yuan Hong. チャンギュシーとアン・ホンだ 0.33
2021. Reconstruction attack on instance encoding for language understanding. 2021. 言語理解のためのインスタンスエンコーディングの再構築攻撃。 0.60
In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 2038–2044. 自然言語処理における経験的方法に関する2021年会議の成果、2038–2044頁。 0.73
Nan Xu, Oluwaseyi Feyisetan, Abhinav Aggarwal, Zekun Xu, and Nathanael Teissier. Nan Xu, Oluwaseyi Feyisetan, Abhinav Aggarwal, Zekun Xu, Nathanaelteissier。 0.33
2021. DensityAware Differentially Private Textual Perturbations Using Truncated Gumbel Noise. 2021. トレンシ化ガンベルノイズを用いた個人用テキスト摂動の密度認識 0.48
The International FLAIRS Conference Proceedings, 34(1). 国際フレア会議(国際フレア会議)、34(1)。 0.70
Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. Zichao Yang、Diyi Yang、Chris Dyer、Xiaodong He、Alex Smola、Eduard Hovy。 0.65
2016. Hierarchical attention networks for document classification. 2016. 文書分類のための階層的注意ネットワーク 0.62
In Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies, pages 1480–1489. 2016年の北米計算言語学会(the association for computational linguistics: human language technologies, pp. 1480–1489)で発表された。 0.77
David Yenicelik, Florian Schmidt, and Yannic Kilcher. David Yenicelik、Florian Schmidt、Yannic Kilcher。 0.31
2020. How does bert capture semantics? 2020. bertはどのようにセマンティクスを取り込むのか? 0.40
a closer In Proceedings of the look at polysemous words. 多義語に目を向ける手続きをもっと詳しく。 0.46
Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, pages 156– 162. The Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, page 156–162. 0.47
Xiang Yue, Minxin Du, Tianhao Wang, Yaliang Li, Huan Sun, and Sherman S. M. Chow. xiang yue、minxin du、tianhao wang、yaliang li、huan sun、そしてshaman s.m. chow。 0.67
2021. Differential Privacy for Text Analytics via Natural Text Sanitization. 2021. 自然テキスト衛生化によるテキスト分析のための微分プライバシー 0.56
arXiv:2106.01221 [cs]. arXiv:2106.01221 [cs] 0.37
ArXiv: 2106.01221. ArXiv: 2106.01221。 0.78
Shuheng Zhou, Katrina Ligett, and Larry Wasserman. Shuheng Zhou、Katrina Ligett、Larry Wasserman。 0.30
2009. Differential privacy with compression. 2009. 圧縮による差分プライバシー。 0.61
In 2009 IEEE International Symposium on Information Theory, pages 2718–2722. 2009年IEEE国際情報理論シンポジウム2718-2722頁。 0.74
ISSN: 2157-8117. ISS:2157-8117。 0.36
Banghua Zhu, Jiantao Jiao, and Jacob Steinhardt. バンガワzhu、jiantao jiao、jacob steinhardt。 0.50
2020. In 2020 When does the Tukey Median work? 2020. 2020年、Tukey Medianはいつ機能するのか? 0.61
IEEE International Symposium on Information Theory (ISIT), pages 1201–1206, Los Angeles, CA, USA. ieee international symposium on information theory (isit), pages 1201–1206, los angeles, ca, usa. (英語) 0.81
IEEE. IEEE。 0.41
A Appendix A.1 A Appendix A.1 0.39
Privacy Mechanism We now describe in detail our instance of the exponential mechanism MTD. プライバシーメカニズム 現在、指数的メカニズムMTDの事例を詳細に説明しています。 0.70
Recall from Definition 2.2 that the exponential mechanism samples candidate fi ∈ F with probability 指数的メカニズムが確率を持つ候補 fi ∈ F をサンプリングする定義 2.2 からのリコール
訳抜け防止モード: 定義 2.2 のリコール 確率でFI ∈ Fをサンプリングする指数的なメカニズム
Pr[M(x) = fi] ∝ exp(cid:0) u(x, fi) pr[m(x) = fi]\exp(cid:0)\u(x, fi) である。 0.78
(cid:1) . 2∆u (cid:1)。 2回。 0.50
Thus, MTD is fully defined by its utility function, which, as listed in Equation (3), is approximate Tukey Depth, したがって、mdd はその効用関数によって完全に定義され、方程式 (3) に表されるように、タキー深さの近似である。 0.63
u(x, fi) = (cid:99)TDSx(fi) u(x, fi) = (cid:99)TDSx(fi) 0.48
. We now describe our approximation algorithm of . 近似アルゴリズムを説明します 0.49
Tukey Depth (cid:99)TDSx(fi), which is an adaptation of Tukey Depth (cid:99)TDSx(fi) の適応 0.32
the general median hypothesis algorithm proposed by Gilad-Bachrach and Burges (2012). Gilad-Bachrach and Burges (2012) による一般的な中央値仮説アルゴリズム。 0.73
Note that we can precompute the projections on line 10. 10行の投影を事前計算できることに注意。 0.56
The runtime is O(mkp): for each of m candidates and on each of p projections, we need to compute the scalar difference with k sentence embeddings. ランタイムは O(mkp) であり、各 m 個の候補と各 p 個の射影に対して k 個の文の埋め込みでスカラー差を計算する必要がある。 0.67
Sampling from the multinomial distribution defined by PF then takes O(m) time. pf によって定義される多項分布からのサンプリングは o(m) 時間を要する。 0.73
Additionally note from lines 13 and 15 that utility has a maximum of 0 and a minimum of − k 2 , which is a semantic change from the main paper where maximum utility is k さらに、ユーティリティが最大 0 で最小 − k 2 であり、最大ユーティリティが k であるメインペーパーからの意味的変化である、という13行目と15行目からの注記もある。 0.77
2 and minimum is 0. 2であり, 最小値が0。 0.71
A.2 Proof of Privacy Theorem 4.1 MTD satisfies -Sentence Privacy Proof. A.2 プライバシ定理の証明 4.1 mtd は sentence privacy proof を満たす。 0.48
It is sufficient to show that the sensitivity, 感度を示すのに十分です。 0.54
∆u = max x,x(cid:48),fi su = max x,x(cid:48)fi 0.34
|u(x, fi) − u(x(cid:48), fi)| ≤ 1 . |u(x, fi) − u(x(cid:48), fi)| ≤ 1 である。 0.92
Let us expand the above expression using the terms in Algorithm 1. 上記の式をアルゴリズム1の用語を用いて拡張する。 0.72
uj(cid:48)(x(cid:48) , fi)| uj(cid:48)(x(cid:48) , fi)| 0.48
∆u = max x,x(cid:48),fi su = max x,x(cid:48)fi 0.34
(cid:12)(cid:12) (cid:12)(cid:12) 0.37
| max j∈[p] | min j∈[p] | max jhtml[p] | min jhtml[p] 0.28
uj(x, fi) − max j(cid:48)∈[p] uj(x, fi) − max j(cid:48)ftp[p] 0.46
(cid:12)(cid:12)hj(x , fi) − k (cid:12)(cid:12)hj(c id:48)(x(cid:48), fi) − k (cid:12)(cid:12)| (cid:12)(cid:12) (cid:12)(cid:12)hj(x , fi) − k (cid:12)(cid:12) − 1(cid:1)| (cid:12)(cid:12)hj(c id:48)(x, fi) − k (cid:12)(cid:12)hj(x , fi) − k (cid:12)(cid:12)hj(c id:48), fi) − k (cid:12)(cid:12)| (cid:12)(cid:12) (cid:12)(cid:12)hj(x , fi) − k (cid:12)(cid:12) − 1(cid:1)| (cid:12)(cid:12)hj(c id:48)(x, fi) − k) 0.44
| min j∈[p] | jhtml[p] である。 0.51
2 2 2 2 = max x,x(cid:48),fi − min j(cid:48)∈[p] ≤ max 2 2 2 2 = max x,x(cid:48),fi − min j(cid:48)html[p] ≤ max 0.43
−(cid:0) min -(cid:0)min 0.40
fi j(cid:48)∈[p] フィ j(cid:48)ftp[p] 0.50
≤ 1 Algorithm 1: MTD compute probabilities Input ≤ 1 アルゴリズム1: mtd計算確率入力 0.57
:m candidates F , sentence embs. :m候補f,文embs。 0.59
Sx = (s1, . . . , sk), number of projections p sx = (s1, . . . . , sk) 投影数 p 0.71
2 // Project all embeddings 2 // project all embeddeds 0.87
Output :probability of sampling each candidate PF = [Pf1, . . . , Pfm] 1 v1, . . . , vp ← random vecs. 出力 : 各候補PF = [Pf1, . . , Pfm] 1 v1, . . , vp はランダムベックである。
訳抜け防止モード: 出力 : 各候補 pf = [ pf1, ..., をサンプリングする確率 pfm ] 1 v1, . . ., vp . random vecs.
on unit sphere 3 for i ∈ [k] do for j ∈ [p] do (cid:124) i ← s sj i vj i ∈ [k] do for j ∈ [p] do (cid:124) i s sj i vj に対する単位球面 3 について 0.89
4 9 end for 5 6 7 end for 8 for i ∈ [m] do for j ∈ [p] do (cid:124) i ← f f j i vj /* Compute depth of fi on projection vj hj(x, fi) ← #{sj l ≥ f j [k]} 4 9 終わりだ 5 6 7 end for 8 for i ∈ [m] do for j ∈ [p] do (cid:124) i . f f j i vj /* 射影 vj hj(x, fi) . #{sj l ≥ f j [k]} 上の fi の深さを計算する。 0.58
uj(x, fi) ← −(cid:12)(cid:12)hj(x , fi) − k uj(x, fi) > −(cid:12)(cid:12)hj(x , fi) − k 0.49
l : sj (cid:12)(cid:12) l : sj (cid:12)(cid:12) 0.40
10 11 12 2 10 11 12 2 0.43
*/ i , l ∈ */ i , l ∈ 0.64
16 end for 17 Ψ ←(cid:80)m 16の終わり 17 ψ(cid:80)m 0.59
ˆPfi 18 for i ∈ [m] do Pfi ← 1 ˆPfi i ∈ [m] に対する pfi 18 は pfi を 1 にする。 0.79
i=1 19 20 end for 21 return PF i=1 である。 19 20 end for 21 return PF 0.37
Ψ 13 14 15 Ψ 13 14 15 0.57
end for u(x, fi) ← maxj∈[p] uj(x, fi) ˆPfi ← exp(u(x, fi)/2) u(x, fi) の終端 (p) uj(x, fi) の終端 (u(x, fi)/2) 0.65
The last step follows from the fact that |hj(x, fi)− hj(x(cid:48), fi)| ≤ 1 for all j ∈ [p]. 最後のステップは、すべての j ∈ [p] に対して |hj(x, fi)− hj(x(cid:48), fi)| ≤ 1 であることに由来する。 0.90
In other words, by modifying a single sentence embedding, we can only change the number of embeddings greater than f j i on projection j by 1. 言い換えれば、単一の文の埋め込みを変更することで、射影 j 上の f j i よりも大きい埋め込みの数を 1 だけ変えることができる。 0.75
So, the distance of hj(x, fi) from k 2 can only change by 1 on each projection. したがって、k 2 から hj(x, fi) の距離は各射影上で 1 だけ変化する。 0.67
In the ‘worst case’, the distance worst case (複数形 worst cases) 0.16
(cid:12)(cid:12) reduces by 1 on every projection vj. (cid:12)(cid:12)は投影vjごとに1を減少させる。 0.68
Even then, the minimum distance from k 2 across projections (the worst case depth) can only change by 1, giving us a sensitivity of 1. それでも、k2 から射影(最悪の場合の深さ)までの最小距離は 1 でしか変化できないので、感度は 1 である。 0.73
(cid:12)(cid:12)hj(x , fi)− k (cid:12)(cid:12)hj(x , fi)− k 0.46
2 A.3 Experimental Details Here, we provide an extended, detailed version of section 5. 2 A.3 実験の詳細 ここでは、セクション5の拡張された詳細版を提供します。 0.59
For the general encoder, G : S → R768, we use SBERT (Reimers and Gurevych, 2019), a version of BERT fine-tuned for sentence encoding. 一般的なエンコーダ G : S → R768 では、文のエンコードのために細調整された BERT のバージョンである SBERT (Reimers and Gurevych, 2019) を用いる。 0.79
Sentence embeddings are generated by mean-pooling output tokens. 文埋め込みは平均プール出力トークンによって生成される。 0.52
In all tasks, we freeze the weights of SBERT. すべてのタスクにおいて、SBERTの重みを凍結する。 0.65
The cluster-preserving recoder, H, as well as every classifier is implemented as an instance of a 4-layer MLP taking 768-dimension inputs and only differing on output dimension. クラスタ保存リコーダHと各分類器は、768次元入力を受ける4層MLPのインスタンスとして実装され、出力寸法のみが異なる。 0.80
We denote an instance of this MLP with output dimension o as MLPo. 出力次元 o の MLP のインスタンスを MLPo と表現する。 0.62
We run 5 trials of each experiment with randomness taken over the privacy mechanisms, and plot the mean along with a ± 1 standard deviation envelope. それぞれの実験の5つの試行を行い、プライバシーメカニズムをランダムに処理し、±1標準偏差エンベロープとともに平均をプロットする。 0.81
Non-private: For our non-private baseline, we demonstrate the usefulness of sentence-mean document embeddings. プライベートでないベースラインでは、文平均文書の埋め込みの有用性を示す。 0.59
First, we generate the document embeddings g(xi) for each training, validation, and test set document using SBERT, G. We then train a classifier Cnonpriv = MLPr to predict each document’s topic or sentiment, where r is the number of classes. まず、SBERT, Gを使って各トレーニング、検証、テストセットのドキュメントの埋め込みg(xi)を生成します。次に分類器Cnonpriv = MLPrをトレーニングし、各ドキュメントのトピックや感情を予測する。
訳抜け防止モード: まず、SBERTを用いて、トレーニング、検証、テストセットの各ドキュメントの埋め込みg(xi )を生成する。 G. Cnonpriv = MLPr という分類器を訓練します。 それぞれのドキュメントのトピックや感情を予測するために、rはクラスの数です。
The number of training epochs is determined with the validation set. 検証セットにより、トレーニング期間の数を決定する。 0.66
DeepCandidate: We first collect the candidate set F by sampling 5k document embeddings from the subset of the training set containing at least 8 sentences. DeepCandidate: 少なくとも8つの文を含むトレーニングセットのサブセットから5kドキュメントの埋め込みをサンプリングすることで、まず候補セットFを収集します。 0.73
We run k-means with nc = 50 cluster centers, and label each training set document embedding ti ∈ TG with its cluster. 我々は、nc = 50 のクラスタ中心を持つ k-平均を実行し、各トレーニングセットの文書に Ti ∈ TG をクラスタに埋め込む。 0.75
The sentence recoder, H = MLP768 is trained on the training set along with the linear model L with the Adam optimizer and cross-entropy loss. 文リコーダ h = mlp768 は、adamオプティマイザとクロスエントロピー損失を伴う線形モデル l と共にトレーニングセット上で訓練される。 0.68
For a given document x, its sentence embeddings Sx are passed through H, averaged together, and then passed to L to predict x’s cluster. 与えられた文書 x に対して、その文の埋め込み Sx は H を通過して平均化され、その後 L に渡されて x のクラスタを予測する。 0.74
L’s loss is then back-propagated lの損失はバックプロパゲーションされる 0.71
through H. A classifier Cdc = MLPr is trained in parallel using a separate instance of the Adam optimizer to predict class from the recoded embeddings, where r is the number of classes (topics or sentiments). 分類器 Cdc = MLPr は、Adamオプティマイザの別インスタンスを使用して並列にトレーニングされ、再コードされた埋め込みからクラスを予測する。
訳抜け防止モード: Cdc = MLPr は、Adamオプティマイザの別インスタンスを使用して並列にトレーニングされ、再コードされた埋め込みからクラスを予測する。 ここで r はクラス(トピックや感情)の数です。
The number of training epochs is determined using the validation set. トレーニングエポックの数は、検証セットを用いて決定される。 0.64
At test time, (generating private embeddings using MTD), the optimal number of projections p is empirically chosen for each  using the validation set. テスト時間(MTDを用いたプライベート埋め込みの生成)では、検証セットを使用して各 t に対して最適な射影数 p が経験的に選択される。 0.72
Truncation: The truncation baseline (Li and Clifton, 2021) requires first constraining the embedding instance space. トラニケーション: トランニケーションベースライン (Li and Clifton, 2021) は、埋め込みインスタンス空間を第一に制限する必要がある。 0.69
We do so by computing the 75% median interval on each of the 768 dimensions of training document embeddings TG. 私たちは、768次元のトレーニングドキュメント埋め込みtgのそれぞれで75%の中央値間隔を計算します。 0.72
Sentence embeddings are truncated at each dimension to lie in this box. 文の埋め込みは各次元で切り離され、このボックスに置かれる。 0.64
In order to account for this distribution shift, a new classifier Ctrunc = MLPr is trained on truncated mean embeddings to predict class. この分散シフトを説明するために、新しい分類器Ctrunc = MLPrは、クラスを予測するために、truncated平均埋め込みに基づいて訓練される。 0.70
The number of epochs is determined with the validation set. 検証セットによりエポック数を決定する。 0.46
At test time, a document’s sentence embeddings Sx are truncated and averaged. テスト時には、文書の文の埋め込み Sx が切り替わり、平均化されます。 0.69
We then add Laplace noise to each dimension with k , where w is the width of the box scale factor 768w on that dimension (sensitivity in DP terms). すると、各次元に k = でラプラスノイズを加え、w はその次元上のボックススケール係数 768w の幅(DP の感度)である。 0.70
Note that the standard deviation of noise added is inversely proportional to the number of sentences in the document, due to the averaging operation reducing sensitivity. 加算された雑音の標準偏差は、平均化操作が感度を低下させるため、文書中の文数に逆比例する。 0.67
Word Metric-DP: Our next baseline satisfies word-level metric DP and is adopted from (Feyisetan et al , 2019). word metric-dp: 次のベースラインは,単語レベルのメートル dp を満たすもので,(feyisetan et al , 2019) から採用されています。 0.59
The corresponding mechanism MDP : X → X takes as input a document x and returns a private version, x(cid:48), by randomizing each word individually. 対応するメカニズム MDP : X → X は文書 x を入力として取り、各単語を個別にランダム化してプライベートバージョン x(cid:48) を返す。 0.84
For comparison, we generate document embeddings by first randomizing the document x(cid:48) = MDP(x) as prescribed by (Feyisetan et al , 2019), and then computing its document embedding g(x(cid:48)) using SBERT. 比較のために、まず文書 x(cid:48) = MDP(x) を (Feyisetan et al , 2019) で定めるようにランダム化し、次に SBERT を用いて文書埋め込み g(x(cid:48)) を演算することで文書埋め込みを生成する。 0.78
At test time, we classify the word-private document embedding using Cnonpriv. テスト時には、cnonprivを使ってword-privateドキュメント埋め込みを分類する。 0.68
Random Guess: To set a bottom-line, we show the theoretical performance of a random guesser. Random Guess: ボトムラインを設定するには、ランダムな推測器の理論的性能を示す。 0.74
The guesser chooses class i with probability qi equal to the fraction of i labels in the training set. 推測者は、トレーニングセット内のiラベルの分数に等しい確率 qi のクラス i を選択する。 0.75
The performance is then given by(cid:80)r パフォーマンスは(cid:80)rによって与えられる 0.81
i . i=1 q2 私は... i=1 q2 0.31
A.4 Reproducability Details We plan to publish a repo of code used to generate the exact figures in this paper (random seeds have been set) with the final version. A.4 再現性の詳細 この論文の正確な数字を生成するために使われるコードのリポジトリ(ランダムな種がセットされている)を最終バージョンで公開する予定です。 0.50
Since we do 私たちがやるから 0.55
not train the BERT base model G, our algorithms and training require relatively little computational resouces. BERTベースモデルGをトレーニングしないで、我々のアルゴリズムとトレーニングは比較的少ない計算的再利用を必要とします。
訳抜け防止モード: BERT ベースモデル G を訓練しない 我々のアルゴリズムと訓練は 比較的少ない計算的解決を必要とする
Our system includes a single Nvidia GeForce RTX 2080 GPU and a single Intel i9 core. 私たちのシステムにはnvidia geforce rtx 2080 gpuとintel i9 coreが1つ含まれています。 0.73
All of our models complete an epoch training on all datasets in less than one minute. すべてのモデルが1分以内で,すべてのデータセットに対するエポックトレーニングを完了しています。 0.68
We never do more than 20 epochs of training. 私たちは20エポック以上のトレーニングはしません。 0.65
All of our classifier models train (including linear model) have less than 11 million parameters. 全ての分類器モデルは(線形モデルを含む)1100万のパラメータしか持たない。 0.72
The relatively low amount of parameters is due to the fact that we freeze the underlying language model. パラメータが比較的少ないのは、基礎となる言語モデルを凍結しているためです。 0.73
The primary hyperparameter tuned is the number of projections p. 一次ハイパーパラメータチューニングは射影数 p である。 0.67
We take the argmax value on the validation set between 10 and 100 projections. 我々は10から100の射影の検証セットでargmax値を取る。 0.66
We repeat this for each value of . ここでは、この値のそれぞれを繰り返す。 0.71
Dataset preprocessing: For all datasets, we limit ourselves to documents with at least 2 sentences. データセット前処理: すべてのデータセットに対して、少なくとも2つの文を持つドキュメントに制限します。 0.63
IMDB: This dataset has pre-defined train/test splits. IMDB: このデータセットには、事前に定義されたトレイン/テストの分割があります。 0.36
We use the entire training set and form the test set by randomly sampling 4,000 from the test set provided. トレーニングセット全体を使用し、提供されたテストセットから4000をランダムにサンプリングしてテストセットを形成する。 0.75
We do this for efficiency in computing the Metric-DP baseline, which is the slowest of all algorithms performed. これは、最も遅いアルゴリズムであるメートル法-dpベースラインの計算効率を高めるために行われる。 0.73
Since the Metric-DP baseline randomizes first, we cannot precompute the sentence embeddings G(si) – we need to compute the sentence embeddings every single time we randomize. Metric-DPベースラインが最初にランダム化するので、文章埋め込みG(si)をプリ計算することはできない。
訳抜け防止モード: Metric - DP ベースラインが最初にランダム化されるので、文の埋め込み G(si ) - をプリコンプリートすることはできない。 ランダム化するたびに 文を埋め込む必要があります
Since we randomize for each sentence of each document at each  and each k over 5 trials – this takes a considerable amount of time. それぞれの文書の各文を、各 k が 5 以上の試行でランダム化するので、これはかなりの時間を要する。 0.68
Good Reads: This dataset as provided is quite large. Good Reads: このデータセットは、非常に大きいです。 0.89
We randomly sample 15000 documents from each of 4 classes, and split them into 12K training examples, 2K validation examples, and 1K test examples per class. ランダムに4つのクラスから15,000のドキュメントをサンプリングし、それらを12Kトレーニング例、2K検証例、1Kテスト例に分割した。 0.74
20 News Groups: We preprocess this dataset to remove all header information, which may more directly tell information about document class, and only provide the model with the sentences from the main body. 20のニュースグループ: このデータセットを前処理して、すべてのヘッダ情報を削除します。
訳抜け防止モード: 20ニュースグループ:このデータセットを前処理して、すべてのヘッダ情報を削除する。 ドキュメントクラスに関する情報をより直接的に伝え、本体からの文のみをモデルに提供します。
We use the entire dataset, and form the Train/Val/Test splits by random sampling. データセット全体を使用し、ランダムサンプリングによってTrain/Val/Testスプリットを形成する。 0.66

翻訳にはFugu-Machine Translatorを利用しています。