User language data can contain highly sensitive personal content. As such, it
is imperative to offer users a strong and interpretable privacy guarantee when
learning from their data. In this work, we propose SentDP: pure local
differential privacy at the sentence level for a single user document. We
propose a novel technique, DeepCandidate, that combines concepts from robust
statistics and language modeling to produce high-dimensional, general-purpose
$\epsilon$-SentDP document embeddings. This guarantees that any single sentence
in a document can be substituted with any other sentence while keeping the
embedding $\epsilon$-indisting uishable. Our experiments indicate that these
private document embeddings are useful for downstream tasks like sentiment
analysis and topic classification and even outperform baseline methods with
weaker guarantees like word-level Metric DP.
In this work, we propose SentDP: pure local differential privacy at the sentence level for a single user document.
本研究では,senddp:pure local differential privacyを文レベルで単一ユーザ文書に対して提案する。
0.73
We propose a novel technique, DeepCandidate, that combines concepts from robust statistics and language modeling to produce high-dimensional, general-purpose -SentDP document embeddings.
This guarantees that any single sentence in a document can be substituted with any other sentence while keeping the embedding -indistinguishable.
これにより、文書中の任意の一文は他の文と置換でき、その埋め込みは区別できない。
0.61
Our experiments indicate that these private document embeddings are useful for downstream tasks like sentiment analysis and topic classification and even outperform baseline methods with weaker guarantees like word-level Metric DP.
Introduction 1 Language models have now become ubiquitous in NLP (Devlin et al , 2019; Liu et al , 2019b; Alsentzer et al , 2019), pushing the state-of-the-art in a variety of tasks (Strubell et al , 2018; Liu et al , 2019a; Mrini et al , 2021).
はじめに NLP(Devlin et al , 2019b; Liu et al , 2019b; Alsentzer et al , 2019)で1言語モデルがユビキタス化され、さまざまなタスク(Strubell et al , 2018; Liu et al , 2019a; Mrini et al , 2021)で最先端に到達した。
0.70
While language models capture meaning and various linguistic properties of text (Jawahar et al , 2019; Yenicelik et al , 2020), an individual’s written text can include highly sensitive information.
言語モデルは、意味とテキストのさまざまな言語的特性(jawahar et al , 2019; yenicelik et al , 2020)をキャプチャするが、個人の文章には、高度に敏感な情報が含まれている。
0.74
Even if such details are not needed or used, sensitive information has been found to be vulnerable and detectable to attacks (Pan et al , 2020; Abdalla et al , 2020; Carlini et al , 2020).
そのような詳細が不要であっても、機密情報は攻撃に対して脆弱で検出可能であることが判明している(pan et al , 2020; abdalla et al , 2020; carlini et al , 2020)。
0.76
Reconstruction attacks (Xie and Hong, 2021) have even successfully broken through private learning schemes that rely on encryption-type methods (Huang et al , 2020).
レコンストラクション攻撃(xie and hong, 2021)は、暗号化型メソッドに依存するプライベートラーニングスキーム(huang et al, 2020)によってもうまく破られた。
0.67
As of now, there is no broad agreement on what constitutes good privacy for natural language (Kairouz et al , 2019).
現在、自然言語の適切なプライバシーを構成するものについては、広く合意されていない(Kairouz et al , 2019)。
0.70
Huang et al (2020) argue that different applications and models require
Huang et al (2020) は異なるアプリケーションとモデルを必要とすると主張している
0.75
Figure 1: x and x(cid:48) yield z ∈ Rd with similar probability.
図1: x と x(cid:48) は、同様の確率で z ∈ Rd を得る。
0.81
different privacy definitions.
異なるプライバシーの定義です
0.74
Several emerging works propose to apply Metric Differential Privacy (Alvim et al , 2018) at the word level (Feyisetan et al , 2019; Feyisetan and Kasiviswanathan, 2021; Carvalho et al , 2021; Qu et al , 2021; Yue et al , 2021; Xu et al , 2021) .
計量微分プライバシー(alvim et al , 2018)を単語レベル(feyisetan et al , 2019; feyisetan and kasiviswanathan, 2021; carvalho et al , 2021; qu et al , 2021; yue et al , 2021; xu et al , 2021)に適用することを提案している。 訳抜け防止モード: いくつかの新しい研究は、Metric Differential Privacy (Alvim et al, 2018) を語レベル (Feyisetan et al, 2019) に適用することを提案している。 そしてKasiviswanathan, 2021 ; Carvalho et al, 2021 ; Qu et al, 2021 ; Yue et al, 2021 ; Xu et al, 2021 )。
0.87
They propose to add noise to word embeddings, such that they are indistinguishable from their nearest neighbours.
彼らは単語の埋め込みにノイズを加えることを提案し、近くの隣人と区別できないようにしている。
0.60
At the document level, however, the above definition has two areas for improvement.
しかしドキュメントレベルでは、上記の定義には改善すべき2つの領域がある。
0.71
First, it may not offer the level of privacy desired.
第一に、プライバシーのレベルは提供されないかもしれない。
0.62
Having each word indistinguishable with similar words may not hide higher level concepts in the document, and may not be satisfactory for many users.
Second, it may not be very interpretable or easy to communicate to end-users, since the privacy definition relies fundamentally on the choice of embedding model to determine which words are indistinguishable with a given word.
This may not be clear and precise enough for end-users to grasp.
これは、エンドユーザが把握できるほど明確で正確ではないかもしれない。
0.43
In this work, we propose a new privacy definition for documents: sentence privacy.
本研究では,文書に対する新たなプライバシー定義である文のプライバシーを提案する。
0.69
This guarantee is both strong and interpretable: any sentence in a document must be indistinguishable with any other sentence.
この保証は強固かつ解釈可能であり、文書中の任意の文は他の文と区別できない。
0.73
A document embedding is sentenceprivate if we can replace any single sentence in the document and have a similar probability of producing the same embedding.
Although this definition is strong, we are able to produce unsupervised, general embeddings of documents that are useful for downstream tasks like sentiment analysis and topic classification.
To achieve this we propose a novel privacy mechanism, DeepCandidate, which privately samples a high-dimensional embedding from a preselected set of candidate embeddings derived from public, non-private data.
DeepCandidate works by first pretuning a sentence encoder on public data such that semantically different document embeddings are far apart from each other.
Then, we approximate each candidate’s Tukey Depth within the private documents’ sentence embeddings.
次に、各候補のTukey Depthを、プライベートドキュメントの文の埋め込み内に近似する。
0.70
Deeper candidates are the most likely to be sampled to represent the private document.
より深い候補は、プライベートドキュメントを表すためにサンプルされる可能性が高い。
0.77
We evaluate DeepCandidate on three illustrative datasets, and show that these unsupervised private embeddings are useful for both sentiment analysis and topic classification as compared to baselines.
x = (s1, s2, . . . , sk) for any non-negative integer k of sentences.
x = (s1, s2, . . . , sk) 文の任意の非負整数 k に対して。
0.84
In this work, we focus on cohesive documents of sentences written together like reviews or emails, but our methods and guarantees apply to any sequence of sentences, such as a collection of messages written by an individual over some period of time.
Our task is to produce an embedding z ∈ Rd of any document x ∈ X such that any single sentence si ∈ x is indistinguishable with every other seni ∈ S\si.
我々の仕事は、任意の文書 x ∈ x の埋め込み z ∈ rd を生成して、任意の単文 si ∈ x が他のすべての seni ∈ s\si と区別できないようにすることである。 訳抜け防止モード: 我々の仕事は、任意の文書 x ∈ X の埋め込み z ∈ Rd を生成することである。 任意の単文 si ∈ x は他のすべてのseni ∈ S\si と区別できない。
0.80
That is, if one were to replace any tence s(cid:48) single sentence in the document si ∈ x with any i ∈ S\si, the probability of proother sentence s(cid:48) ducing a given embedding z is similar.
すなわち、文書 si ∈ x 内の任意のテンス s(cid:48) の単文を任意の i ∈ s\si に置き換えるならば、与えられた埋め込み z をダックする他の文 s(cid:48) の確率も同様である。
0.81
To achieve this, we propose a randomized embedding function (the embedding mechanism) M : X → Rd, that generates a private embedding z = M(x) that is useful for downstream tasks.
これを実現するために、下流タスクに有用なプライベートな埋め込み z = M(x) を生成するランダムな埋め込み関数 (埋め込み機構) M : X → Rd を提案する。
0.72
2.1 Differential Privacy The above privacy notion is inspired by Differential Privacy (DP) (Dwork, 2006).
It guarantees that — whether an individual participates (dataset D) or not (dataset D(cid:48)) — the probability of any output only chances by a constant factor.
Given any pair of datasets D, D(cid:48) ∈ D that differ only in the information of a single individual, we say that the mechanism A : D → O, satisfies -DP if
任意の対のデータセット d, d(cid:48) ∈ d が 1 個の個人の情報にのみ異なるとき、そのメカニズム a : d → o が s-dp を満たすことを言う。
0.81
Pr[A(D) ∈ O] ≤ e Pr[A(D(cid:48)) ∈ O]
Pr[A(D) ∈ O] ≤ e> Pr[A(D(cid:48)) ∈ O]
0.47
for any event O ⊆ O.
いずれにせよ、O は O である。
0.44
2 Background and Related Work Setting.
2 背景と関連作業の設定。
0.76
We denote a ‘document’ as a sequence of sentences.
我々は「文書」を文の列として表現する。
0.67
Let s ∈ S be any finite-length sentence.
s ∈ S を任意の有限長文とする。
0.72
Then, the space of all documents is X = S∗ and document x ∈ X is written as
すると、すべての文書の空間は x = s∗ であり、文書 x ∈ x は次のように書かれる。
0.72
Note that we take probability over the randomness of the mechanism A only, not the data distribution.
データ分布ではなく、メカニズムのランダム性だけを確率的に捉えることに注意する。
0.77
DP has several nice properties that make it easy to work with including closure under postprocessing, an additive privacy budget (composition), and closure under group privacy guarantees
(guarantees to a subset of multiple participants).
(複数の参加者のサブセットにguaranteeを割り当てる)。
0.78
See Dwork et al 2014 for more details.
詳細はDwork et al 2014を参照。
0.76
The exponential mechanism (McSherry and Talwar, 2007) allows us to make a DP selection from an arbitrary output space O based on private dataset D. A utility function over input/output pairs, u : D × O → R determines which outputs are the best selection given dataset D. The log probability of choosing output o ∈ O when the input is dataset D ∈ D is then proportional to its utility u(D, o).
指数関数機構 (McSherry and Talwar, 2007) により、任意の出力空間 O から、プライベートデータセット D に基づいてDP選択を行うことができる。 入力/出力対上のユーティリティ関数 u : D × O → R は、与えられたデータセット D に対してどの出力が最適な選択であるかを決定する。 訳抜け防止モード: 指数関数機構 (McSherry and Talwar, 2007 ) により、任意の出力空間 O から DP を選択することができる。 u : D × O → R は与えられたデータセット D に対してどの出力が最適な選択であるかを決定する。 入力がデータセット D ∈ D であるときに出力 o ∈ O を選択する このとき、その効用 u(D , o ) に比例する。
0.82
The sensitivity of u(·,·) is the worst-case change in utility over pairs of neighboring datasets (D, D(cid:48)) that change in one entry, ∆u = maxD,D(cid:48),o |u(D, o) − u(D(cid:48), o)|.
Definition 2.2. The exponential mechanism AExp : D → O is a randomized algorithm with output distribution
2.2。 指数的機構 AExp : D → O は出力分布を持つランダム化アルゴリズムである
0.77
Pr[AExp(D) = o] ∝ exp(cid:0) u(D, o)
pr[aexp(d) = o]\exp(cid:0)\u(d, o) である。
0.70
(cid:1) . 2∆u
(cid:1) . 2回。
0.37
2.2 Related Work Natural Language Privacy.
2.2 関連業務 自然言語プライバシー。
0.80
Previous work has demonstrated that NLP models and embeddings are vulnerable to reconstruction attacks (Carlini et al , 2020; Abdalla et al , 2020; Pan et al , 2020).
これまでの研究では、NLPモデルと埋め込みが再建攻撃に弱いことが示されている(Carlini et al , 2020; Abdalla et al , 2020; Pan et al , 2020)。
0.79
In response there have been various efforts to design privacy-preserving techniques and definitions across NLP tasks.
A line of work focuses on how to make NLP model training satisfy DP (Kerrigan et al , 2020; Bagdasaryan et al , 2019).
NLPモデルのトレーニングがDPを満足させる方法(Kerrigan et al , 2020; Bagdasaryan et al , 2019)に焦点を当てている。
0.75
This is distinct from our work in that it satisfies central DP – where data is first aggregated non-privately and then privacy preserving algorithms (i.e. training) are run on that data.
We model this work of the local version of DP (Dwork et al , 2006), wherein each individual’s data is made private before centralizing.
我々はこのDP(Dwork et al , 2006)のローカルバージョンをモデル化し、各個人のデータは中央集権化する前にプライベートにされる。
0.80
Our definition guarantees privacy to a single document as opposed to a single individual.
私たちの定義では、個人ではなく、単一のドキュメントにプライバシを保証します。
0.57
A line of work more comparable to our approach makes documents locally private by generating a randomized version of a document that satisfies some formal privacy definition.
As with the private embedding of our work, this generates locally private representation of a given document x.
私たちの作品のプライベートな埋め込みと同様に、これは与えられた文書 x のローカルなプライベート表現を生成する。
0.66
The overwhelming majority of these methods satisfy an instance of Metric-DP (Alvim et al , 2018) at the word level (Feyisetan et al , 2019; Feyisetan and Kasiviswanathan, 2021; Carvalho et al , 2021; Qu et al , 2021; Yue et al , 2021; Xu et al , 2021).
これらの手法の圧倒的多数は、単語レベルのメートル法-dp(alvim et al , 2018)の例を満たす(feyisetan et al , 2019; feyisetan and kasiviswanathan 2021; carvalho et al , 2021; qu et al , 2021; yue et al , 2021; xu et al , 2021)。 訳抜け防止モード: これらの手法の圧倒的多数は、単語レベル (Feyisetan et al, 2019 ; Feyisetan) における Metric - DP (Alvim et al, 2018 ) の例を満たす。 そして、Kasiviswanathan, 2021 ; Carvalho et al, 2021 ; Qu et al, 2021 ; Yue et al, 2021 ; Xu et al, 2021 )。
0.87
As discussed in the introduction, this guarantees that a document x is indistinguishable with any other document x(cid:48) produced by swapping a single word
Two words are ‘similar’ if they are close in the word embeddings space (e g GloVe).
2つの単語は、埋め込み空間 (e g GloVe) に近ければ「類似」である。
0.71
This guarantee is strictly weaker than our proposed definition, SentDP, which offers indistinguishability to any two documents that differ in an entire sentence.
There is a large body of work on non-NLP privacy-preserving embeddings, as these embeddings have been shown to be vulnerable to attacks (Song and Raghunathan, 2020).
非NLPのプライバシー保護の埋め込みは、攻撃に弱いことが示されている(SongとRaghunathan, 2020)。 訳抜け防止モード: 非NLPプライバシに関する大きな取り組みがあります。 埋め込みを保存します これらの埋め込みは攻撃に弱いことが示されている(Song and Raghunathan, 2020)。
0.62
Li and Clifton (2021) attempt to generate locally private embeddings by bounding the embedding space, and we compare with this method in our experiments.
Li と Clifton (2021) は埋め込み空間を束縛することで局所的なプライベートな埋め込みを創出しようと試み,本手法との比較を行った。
0.74
Kamath et al (2019) propose a method for privately publishing the average of embeddings, but their algorithm is not suited to operate on the small number of samples (sentences) a given document offers.
Kamath et al (2019) は、埋め込みの平均をプライベートに公開する方法を提案するが、それらのアルゴリズムは、与えられた文書が提供する少数のサンプル(文)を扱うには適していない。
0.76
Finally, Beimel et al (2019) propose a method for privately learning halfspaces in Rd, which is relevant to private Tukey Medians, but their method would restrict input examples (sentence embeddings) to a finite discrete set in Rd, a restriction we cannot tolerate.
最後に Beimel et al (2019) は、プライベートなTukey Medians に関連する Rd の半空間をプライベートに学習する方法を提案しているが、それらの手法は入力例(文埋め込み)を Rd の有限離散集合に制限する。
0.69
3 Sentence-level Privacy We now introduce our simple, strong privacy definition, along with concepts we use to satisfy it.
3.1 Definition In this work, we adopt the local notion of DP (Dwork et al , 2006), wherein each individual’s data is guaranteed privacy locally before being reported and centralized.
3.1 本研究では, DP(Dwork et al , 2006)のローカル概念を採用し, 各個人のデータは, 報告・集中する前に, 局所的にプライバシーが保証される。
0.81
Our mechanism M receives a single document from a single individual, x ∈ X .
我々の機構 m は、単一の個人 x ∈ x から単一の文書を受け取る。
0.81
We require that M provides indistinguishability between documents x, x(cid:48) differing in one sentence.
M は 1 つの文で異なる文書 x, x(cid:48) 間で区別しにくいことを要求する。
0.64
Definition 3.1 (Sentence Privacy, SentDP).
定義 3.1 (Sentence Privacy, SentDP)。
0.89
Given any pair of documents x, x(cid:48) ∈ X that differ only in one sentence, we say that a mechanism M : X → O satisfies -SentDP if
一つの文でのみ異なる文書 x, x(cid:48) ∈ X の任意の対が与えられたとき、M : X → O の機構は、もし s-SentDP を満たす。
0.78
Pr[M(x) ∈ O] ≤ e Pr[M(x(cid:48)) ∈ O]
Pr[M(x) ∈ O] ≤ e> Pr[M(x(cid:48)) ∈ O]
0.47
for any event O ⊆ O.
いずれにせよ、O は O である。
0.44
We focus on producing an embedding of the given document x, thus the output space is O = Rd.
与えられた文書 x の埋め込みを生成することに集中するため、出力空間は O = Rd となる。
0.83
For instance, consider the neighboring documents x = (s1, s2, . . . , sk) and x(cid:48) = (s1, s(cid:48) 2, . . . , sk) that differ in the second sentence, i.e. s2, s(cid:48) 2 can be any pair of sentences in S 2.
This is a strong notion of privacy in comparison to existing definitions
これは、既存の定義と比べてプライバシーの強い概念だ。
0.73
英語(論文から抽出)
日本語訳
スコア
across NLP tasks.
NLPタスクにまたがる。
0.69
However, we show that we can guarantee SentDP while still providing embeddings that are useful for downstream tasks like sentiment analysis and classification.
Our method makes use of existing pre-trained sentence encoding models.
本手法は既存の事前学習文符号化モデルを用いる。
0.69
We denote this general sentence encoder as G : S → Rd.
この一般文エンコーダを g : s → rd と表記する。
0.72
We show in our experiments that the mean of sentence embeddings,
実験では文の埋め込みの平均が示されている。
0.53
g(x) = 1 k (cid:88)
g(x) = 1k (cid:88)
0.39
si∈x G(si) ,
シヤクス g(si) ,
0.33
(1) maintains significant information unique to the document and is useful for downstream tasks like classification and sentiment analysis.
(1) ドキュメント特有の重要な情報を保持し、分類や感情分析のような下流のタスクに役立ちます。
0.55
We call g(x) the document embedding since it summarizes the information in document x.
我々は、g(x) を文書埋め込みと呼び、それは文書 x に情報をまとめるからである。
0.66
While there exist other definitions of document embeddings (Yang et al , 2016; Thongtan and Phienthrakul, 2019; Bianchi et al , 2020), we decide to use averaging as it is a simple and established embedding technique (Bojanowski et al , 2017; Gupta et al , 2019; Li et al , 2020).
文書埋め込みには他にも定義がある(Yang et al , 2016; Thongtan and Phienthrakul, 2019; Bianchi et al , 2020)が、単純で確立された埋め込み技術(Bojanowski et al , 2017; Gupta et al , 2019; Li et al , 2020)として平均化を使うことにした。
0.84
3.3 Tukey Depth Depth is a concept in robust statistics used to describe how central a point is to a distribution.
We borrow the definition proposed by Tukey (1975): Definition 3.2.
我々はTukey (1975): Definition 3.2 によって提案された定義を借用する。
0.66
Given a distribution P over Rd, the Tukey Depth of a point y ∈ Rd is
Rd 上の分布 P が与えられたとき、点 y ∈ Rd のチューキー深さは、
0.81
TDP (y) = inf w∈Rd
TDP (y) = inf w・Rd
0.44
P{y(cid:48) : w · (y(cid:48) − y) ≥ 0} .
P{y(cid:48) : w · (y(cid:48) − y) ≥ 0} である。
0.88
In other words, take the hyperplane orthogonal to vector w, hw, that passes through point y.
言い換えると、点 y を通るベクトル w, hw に直交する超平面を取る。
0.62
Let 1 be the probability under P that a point lands on P w 2 be the probability that a one side of hw and let P w point lands on the other side, so P w 2 = 1.
いくぞ 1 が p の下の確率で、ある点が p w 2 に着地する確率は、hw の一方の辺と p w の点がもう一方の辺に着地する確率であるから、p w 2 = 1 となる。 訳抜け防止モード: いくぞ 1 は P の下にある点が P w 2 に着地する確率は P の確率である。 hwの一方の辺で、Pwをもう一方の辺に着地させる。 P w 2 = 1 である。
0.69
y is considered deep if min(P w 2 ) is close to a half for all vectors w (and thus all h passing through y).
y が深いと見なされるのは、min(p w 2 ) がすべてのベクトル w(したがって y を通るすべての h )の半値に近いときである。
0.76
The Tukey Median of distribution P , TMED(P ), is the set of all points with maximal Tukey Depth,
分布 P , TMED(P ) の Tukey Median は極大の Tukey Depth を持つすべての点の集合である。
0.81
1 +P w 1 , P w
1 + P w 1 , p w である。
0.54
TMED(P ) = arg max y∈Rd
TMED(P ) = arg max y∂Rd
0.42
TDP (y)
TDP (複数形 TDPs)
0.73
. (2) We only access the distribution P through a finite sample of i.i.d. points, Y = {y1, y2, . . . , yn}.
. (2) 分布 p は i.i.d. 点 y = {y1, y2, . . , yn} の有限サンプルを通してのみアクセスする。
0.57
The Tukey Depth w.r.t. Y is given by
タキー深さ w.r.t. y は
0.61
TDY (y) = inf w∈Rd
TDY (y) = inf w・Rd
0.43
|{y(cid:48) ∈ Y : w · (y(cid:48) − y) ≥ 0}| ,
|{y(cid:48) ∈ Y : w · (y(cid:48) − y) ≥ 0}| ,
0.49
and is at most half the size of our sample(cid:4) n
サンプル (cid:4) n の半分くらいの大きさです
0.64
and the median, TMED(Y ), maximizes the depth
そして中央値 TMED(Y ) は深さを最大化する
0.74
(cid:5). Generally, finding a point in TMED(Y ) is hard; SOTA algorithms have an exponential dependency in dimension (Chan, 2004), which is a non-starter when working with high-dimensional embeddings.
We now turn to describing our privacy-preserving technique, DeepCandidate, which generates general, -SentDP document embeddings that preserve relevant information in g(x), and are useful for downstream tasks.
To understand the nontrivial nature of this problem, we first analyze why the simplest, straightfoward approaches are insufficient.
この問題の非自明性を理解するために、まず、最も単純で直線的なアプローチが不十分な理由を分析する。
0.65
Motivation. Preserving privacy for high dimensional objects is known to be challenging (Kamath et al , 2019; Feyisetan and Kasiviswanathan, 2021; Zhou et al , 2009) .
モチベーション。 高次元オブジェクトのプライバシー保護は難しいことが知られている(Kamath et al , 2019; Feyisetan and Kasiviswanathan, 2021; Zhou et al , 2009)。
0.66
For instance, adding Laplace noise directly to g(x), as done to satisfy some privacy definitions (Feyisetan et al , 2019; Alvim et al , 2018), does not guarantee SentDP for any .
例えば、いくつかのプライバシー定義(feyisetan et al , 2019; alvim et al , 2018)を満たすために行われたように、g(x) にラプラスノイズを直接追加しても、senddp は保証されない。 訳抜け防止モード: 例えば、g(x) に直接 Laplace ノイズを加える。 いくつかのプライバシー定義を満たすために完了した(Feyisetan et al, 2019; Alvim et al, 2018)。 は SentDP を保証しない。
0.77
Recall that the embedding space is all of Rd.
埋め込み空間がすべて Rd であるということを思い出す。
0.71
A change in one sentence can lead to an unbounded change in g(x), since we do not put any restrictions on the general encoder G. Thus, no matter how much noise we add to g(x) we cannot satisfy SentDP.
A straightforward workaround might be to simply truncate embeddings such that they all lie in a limited set such as a sphere or hypercube as done in prior work (Li and Clifton, 2021; Abadi
簡単な回避策として、埋め込みを単に切り刻むだけで、それらはすべて前作(Li and Clifton, 2021; Abadi)のように球やハイパーキューブのような制限されたセットに置かれる。
0.61
英語(論文から抽出)
日本語訳
スコア
In doing so, we bound how far et al , 2016).
そうすることで、どこまで遠くまで行き着くか(2016年)。
0.58
apart embeddings can be for any two sentences, (cid:107)G(si) − G(s(cid:48) i)(cid:107)1, thus allowing us to satisfy SentDP by adding finite variance noise.
We must add noise with standard deviation proportional to the dimension of the embedding, thus requiring an untenable degree of noise for complex encoders like BERT which embed into R768.
Our method has three pillars: (1) sampling from a candidate set of public, non-private document embeddings to represent the private document, (2) using the Tukey median to approximate the document embedding, and (3) pre-training the sentence encoder, G, to produce relevant candidates with high Tukey depth for private document x.
Instead of having our mechanism select a private embedding z from the entire space of Rd, we focus the mechanism to select from a set of m candidate embeddings, F , generated by m public, nonprivate documents.
Rd の空間全体からプライベートな埋め込み z を選択する代わりに、m のパブリックな非プライベートな文書によって生成される m 候補埋め込み F の集合から選択する機構に焦点を当てる。 訳抜け防止モード: 我々の機構に代えて、Rd の全空間からプライベートな埋め込み z を選択する。 メカニズムに焦点を合わせ to select from a set of m candidate embeddeds, F, generated by m public, nonprivate document。
0.78
We assume the document x is drawn from some distribution µ over documents X .
文書 x は、文書 X 上のある分布 μ から引き出されると仮定する。
0.83
For example, if we know x is a restaurant review, µ may be the distribution over all restaurant reviews.
F is then a collection of document embeddings over m publicly accessible documents xi ∼ µ,
すると、f は m 上のドキュメント埋め込みの集合であり、公にアクセス可能な文書 xi, μ である。
0.63
F = {fi = g(xi) : x1, . . . , xm
F = {fi = g(xi) : x1, . , xm.
0.42
iid∼ µ} , and denote the corresponding distribution over fi as g(µ).
は、μ である。 fi 上の対応する分布を g(μ) として表す。
0.63
By selecting candidate documents that are similar in nature to the private document x, we inject an advantageous inductive bias into our mechanism, which is critical to satisfy strong privacy while preserving information relevant to x.
We model sentences si from document x as i.i.d. draws from distribution νx.
文書 x から si を、分布 νx から引き出すものとしてモデル化する。
0.74
Then, Sx is k draws from g(νx), the distribution of sentences
sx は g(νx) から引き出す k であり、文の分布は
0.68
from νx passing through G. Deep points are a good approximation of the mean under light assumptions.
G を通る νx から。 深い点は、光の仮定の下での平均のよい近似である。
0.66
If g(νx) belongs to the set of halfspace-symmetric distributions (including all elliptic distributions e g Gaussians), we know that its mean lies in the Tukey Median (Zhu et al , 2020).
g(νx) が半空間対称分布(すべての楕円分布 e g Gaussian を含む)の集合に属するならば、その平均は Tukey Median (Zhu et al , 2020) にある。
0.80
Formally, MTD is an instance of the exponential mechanism (Definition 2.2), and is defined by its utility function.
To see this, fix a set of sentence embeddings Sx for document x and the i.i.d. distribution over candidate embeddings fi ∼ g(µ).
これを見るために、文書 x に対する一連の文埋め込み sx と候補埋め込み fi(μ) 上の i.i.d. 分布を固定する。
0.77
This induces a multinomial distribution over depth,
これは深さの多項分布を誘導する。
0.68
(cid:99)TDSx(fi).
(cid:99)TDSx(fi)。
0.90
However, fi∈F
しかし、 fiftpf の略。
0.41
2 (cid:99)(cid:88)
2(cid:99)(cid:88)
0.39
(cid:98) k uj(x) = Pr[u(x, fi) = j],
(cid:98)k uj(x) = Pr[u(x, fi) = j],
0.40
uj(x) = 1 ,
uj(x) = 1 ,
0.85
j=0 where randomness is taken over draws of fi.
j=0 fiの引き分けにランダム性が引き継がれます
0.41
For candidate set F and sentence embeddings Sx, the probability of MTD’s selected candidate, z, having (approximated) depth j∗ is given by aj∗(x)ej∗/2 2 (cid:99) j=0 aj(x)ej/2
候補集合 f と文埋め込み sx に対して、(近似)深さ j∗ を持つ mtd の選択候補 z の確率は aj∗(x)e,j∗/2 2 (cid:99) j=0 aj(x)e,j/2 によって与えられる。
0.75
Pr[u(x, z) = j∗] =
Pr[u(x, z) = j∗] =
0.42
(cid:80)(cid:98) k
(cid:80)(cid:98)k
0.38
(4) where aj(x) is the fraction of candidates in F with depth j w.r.t. the sentence embeddings of document x, Sx.
(4) ここで aj(x) は、深さ j w.r.t の F の候補の分数である。 訳抜け防止モード: (4) ここで aj(x) は深さ j w.r.t の F の候補の分数である。 文書 x , Sx の埋め込み文。
0.61
For m sufficiently large, aj(x) concentrates around uj(x), so further increasing m does not increase the probability of MTD sampling a deep candidate.
m が十分に大きい場合、aj(x) は uj(x) の周りに集中するため、さらに m が増えると、深い候補をサンプリングする MTD の確率は上昇しない。
0.75
Table 1: Conditions for deep candidates
表1:深い候補者の条件
0.86
3 6 10 23
3 6 10 23
0.42
b 55 25 5 1
b 55 25 5 1
0.43
j∗ 5 3 2 1
j∗ 5 3 2 1
0.99
英語(論文から抽出)
日本語訳
スコア
x. The general sentence encoder G used may not satisfy this ‘out of the box’.
xだ 使用する一般文エンコーダGは、この 'out of the box' を満たすことができない。
0.76
If the distribution on document embeddings g(µ) is very scattered around the instance space R768, it can be exceedingly unlikely to have a deep candidate fi among sentence embeddings Sx.
On the other hand, if distribution g(µ) is tightly concentrated in one region (e g ‘before training’ in Figure 3), then we may reliably have many deep candidates, but several will be poor representatives of the document embedding g(x).
To prevent this, we propose an unsupervised, efficient, and intuitive modification to the (pretrained) sentence encoder G. We freeze the weights of G and add additional perceptron layers mapping into the same embeddings space H : Rd → Rd, producing the extended encoder G(cid:48) = H ◦ G. Broadly, we train H to place similar document embeddings close together, and different embeddings far part.
我々はGの重みを凍結し、同じ埋め込み空間 H : Rd → Rd にマッピングするパーセプトロン層を追加し、拡張エンコーダ G(cid:48) = H > G を生成する。 訳抜け防止モード: これを防ぐため。 我々は(事前訓練された)文エンコーダGの教師なし、効率的、直感的な修正を提案する。 そして、同じ埋め込み空間 H : Rd → Rd に写像する追加のパーセプトロン層を加える。 拡張エンコーダG(cid:48 ) = H > G. Broadly. 私たちはHをトレーニングして、類似したドキュメントの埋め込みを密に配置します。
0.73
To do so, we leverage the assumption that a given domain’s distribution over document embeddings g(µ) can be parameterized by nc clusters, visualized as the black circles in Figure 3.
H’s aim is to recode sentence embeddings such that document embedding clusters are preserved, but spaced apart from each other.
hの目標は、文書埋め込みクラスタが保存されるが、互いに間隔が離れるように、文埋め込みを書き換えることである。 訳抜け防止モード: H の目的は 文書埋め込みクラスタが保存されているが、互いに離れているような文埋め込みを再コードする。
0.70
By preserving clusters, we are more likely to have deep candidates (increased probability uj for high depth j).
クラスターを保存することにより、より深い候補を持つ可能性が高い(高深度jの確率ujが増加する)。 訳抜け防止モード: クラスタを保存することで、私たちはよりありそうに見えます to have deep candidate ( increase probability uj for high depth j )
0.77
By spacing clusters apart, these deep candidates are more likely to come from the same or a nearby cluster as document x, and thus be good representatives.
Note that H is domain-specific: we train separate H encoders for each dataset.
Hはドメイン固有であり、データセット毎に別々のHエンコーダをトレーニングします。
0.66
4.4 Sampling Algorithm The final component of DeepCandidate is computing the approximate depth of a candidate for use as utility in the exponential mechanism as in Eq (3).
We first compute embeddings of all (public, non-private) training set documents T with pretrained encoder G, TG = {ti = g
まず、事前訓練されたエンコーダ G, TG = {ti = g を持つすべての(パブリックで非プライベートな)トレーニングセット文書 T の埋め込みを計算する。
0.67
(xi) : xi ∈ T} (blue dots).
(xi) : xi ∈ T} (青い点)。
0.38
We run k-means to define nc clusters, and label each training document embedding ti ∈ TG with its cluster c.
k-means を実行して nc クラスタを定義し、各トレーニング文書に ti ∈ TG をクラスタ c に埋め込みます。
0.79
We then train H to recode sentences to S(cid:48) x such that their mean g(cid:48)
次に H を訓練して文を S(cid:48) x に復号し、平均 g(cid:48)
0.74
(x) can be used by a linear model L to predict cluster c.
(x) は線形モデル L でクラスタ c を予測することができる。
0.78
Our training objective is the cross-entropy loss of the linear model L in predicting c.
トレーニングの目的は, C 予測における線形モデル L のクロスエントロピー損失である。
0.81
For numerical intuition, suppose m = 5000 (as in our experiments), ≥ b candidates have depth ≥ j∗, and all other candidates have depth 0, MTD will sample one of these deep candidates w.p. ≥ 0.95 under the settings in Table 1.
Note that this is only possible for documents with ≥ 6 sentences.
これは6文以上の文書でのみ可能であることに注意。
0.73
For higher ≥ 10, MTD will reliably sample low depth candidates even if there are only a few.
以上の ≥ 10 に対して、mdd は、たとえわずか数個でも、確実に低深度候補をサンプリングする。
0.67
From these remarks we draw two insights on
これらの発言から、私たちは2つの洞察を引き出す。
0.47
how DeepCandidate can achieve high utility.
DeepCandidateが高機能を実現する方法。
0.68
(1) More sentences A higher k enables greater depth, and thus a higher probability of sampling deep candidates with privacy.
1) より高い文 k はより深い深度を実現するため、より深い候補をプライバシでサンプリングする確率が高い。
0.78
We explore this effect in our experiments.
私たちはこの効果を実験で調べる。
0.76
(2) Tuned encoder By tuning the sentence encoder G for a given domain, we can modify the distribution over document embeddings g(µ) and sentence embeddings g(νx) to encourage deep candidates (high probability uj for deep j) that are relevant to document x.
4.3 Taking advantage of structure: cluster-preserving embeddings
4.3 構造を活かす:クラスタ保存埋め込み
0.83
So far, we have identified that deep candidates from F can approximate g(x).
これまでのところ、f からの深い候補は g(x) に近似できることがわかった。
0.65
To produce a good approximation, we need to ensure that
良い近似を生成するためには、確実にそれが必要です。
0.58
1) there reliably exist deep candidates for any given set of sentence embeddings Sx, and
1)任意の文組の埋め込みsxに対して、確実に深い候補が存在すること、及び
0.72
2) that these deep candidates are good representatives of document
2)これらの深層候補が文書のよい代表であること
0.79
英語(論文から抽出)
日本語訳
スコア
(a) 20 News: Sweep
(a)20のニュース: スイープ!
0.72
(b) GoodReads: Sweep
(b)グッドリード:スイープ!
0.63
(c) IMDB: Sweep
(c) - インターネット・ムービー・データベース(英語)
0.40
(d) 20 News: Sweep k
(d)20ニュース:Sweep k
0.82
(e) GoodReads: Sweep k
(e)GoodReads: Sweep k
0.41
(f) IMDB: Sweep k
(f)IMDB:Sweep k
0.42
Figure 4: Comparison of our mechanism with two baselines: truncation (Li and Clifton, 2021) and word-level Metric DP (Feyisetan et al , 2019) for both sentiment analysis (IMDB) and topic classification (GoodReads, 20News) on private, unsupervised embeddings.
図4: 感情分析 (IMDB) とトピック分類 (GoodReads, 20News) の双方に対して, truncation (Li and Clifton, 2021) と word-level Metric DP (Feyisetan et al , 2019) の2つのベースラインを比較した。
0.75
All plots show test-set macro F1 scores.
全てのプロットはテストセットマクロF1スコアを示す。
0.61
The top row shows performance vs. privacy parameter (lower is better privacy).
上位の行は、パフォーマンス対プライバシパラメーター(より低い方がプライバシーが良い)を示している。
0.61
The bottom row shows performance vs. number of sentences k with = 10.
下記の行は、n = 10 の文数 k に対するパフォーマンスを示している。
0.65
DeepCandidate outperforms both baselines across datasets and tasks.
deepcandidateはデータセットとタスクのベースラインを上回っている。
0.50
Note that at a given , word-level Metric-DP is a significantly weaker privacy guarantee.
to similarity between several groups Due (e g comp.os.ms-windows.m isc and comp.sys.ibm.pc.hard ware), the dataset is partitioned into nine categories.
いくつかのグループ(例えばcomp.os.ms-windows.m iscとcomp.sys.ibm.pc.hard ware)間の類似性のため、データセットは9つのカテゴリに分割される。 訳抜け防止モード: to similarity between several group Due (e g comp.os.ms-windows.m isc and comp.sys.ibm.pc.hard ware ) データセットは9つのカテゴリに分けられます
0.61
Train-6743k | Val-2247k | Test-2249k
6743k:Val-2247k:テスト-2249k
0.39
IMDB (Maas et al , 2011) 29k movie reviews from the IMDB database, each labeled as a positive or negative review.
IMDB (Maas et al , 2011) IMDBデータベースからの29kの映画レビュー。 訳抜け防止モード: IMDB (Maas et al, 2011 ) IMDBデータベースによる29kの映画レビュー。 それぞれ 肯定的あるいは否定的なレビューとして ラベル付けされています
0.75
Train-23k | Val-2k | Test-4k
列車23k | val-2k | 試験-4k
0.45
To evaluate utility of these unsupervised, private embeddings, we check if they are predictive of document properties.
Our metric for performance is test-set macro F1 score.
パフォーマンスの指標は、テストセットマクロf1スコアです。
0.63
5.2 Training Details & Setup For the general encoder, G : S → R768, we use SBERT (Reimers and Gurevych, 2019), a version of BERT fine-tuned for sentence encoding.
5.2 トレーニング詳細と設定 G : S → R768 一般的なエンコーダでは、文のエンコーダを微調整した SBERT (Reimers and Gurevych, 2019) を使用している。
0.74
Sentence embeddings are generated by mean-pooling output tokens.
文埋め込みは平均プール出力トークンによって生成される。
0.52
In all tasks, we freeze the weights of SBERT.
すべてのタスクにおいて、SBERTの重みを凍結する。
0.65
The cluster-preserving recoder, H, as well as every classifier is implemented as an instance of a 4-layer MLP taking 768-dimension inputs and only differing on output dimension.
Truncation: We adopt the method from Li and Clifton 2021 to truncate (clip) sentence embeddings within a box in R768, thereby bounding sensitivity as described at the beginning of Section 4.
Random Guess: To set a bottom-line, we show the theoretical performance of a random guesser only knowing the distribution of labels.
Random Guess: ボトムラインを設定するには、ラベルの分布を知るだけでランダムな推測器の理論的性能を示す。
0.76
5.4 Results & Discussion How does performance change with privacy parameter ?
5.4 結果と議論 プライバシパラメーターによるパフォーマンスの変化は?
0.75
This is addressed in Figures 4a to 4c.
これは図4aから4cで表される。
0.76
Here, we observe how the test set macro F1 score changes with privacy parameter (a lower offers stronger privacy).
ここでは,テストセットのマクロf1スコアが,プライバシパラメーター s でどのように変化するかを観察した。
0.61
Generally speaking, for local differential privacy, < 10 is taken to be a strong privacy regime, 10 ≤ < 20 is moderate privacy, and ≥ 25 is weak privacy.
The second caveat is the level of at which privacy is achieved.
第二の注意点として、プライバシが達成されるレベルが > である。
0.55
Despite a weaker privacy definition, the MDP mechanism does not achieve competitive performance until the weakprivacy regime of .
プライバシー定義の弱さにもかかわらず、MDPのメカニズムが競争力を発揮することはない。
0.62
We suspect this is due to two reasons.
これは2つの理由によると思われる。
0.66
First, is the fact that the MDP mechanism does not take advantage of contextual information in each sentence as our technique does; randomizing each word independently does not use higher level linguistic information.
This is due to the fact that DeepCandidate offers a noisy version of an approximation of the document embedding g(x) – it cannot perform any better than deterministically selecting the deepest candidate, and even this candidate may be a poor representative of x.
これは、DeepCandidate が g(x) を埋め込んだ文書の近似のノイズのあるバージョンを提供しているという事実によるもので、最も深い候補を決定的に選び、この候補でさえ x の貧弱な代表者かもしれない。
0.74
We consider this room for improvement, since there are potentially many other ways to tune G(cid:48) and select the candidate pool F such that deep candidates are nearly always good representatives of a given document x.
G(cid:48) をチューニングし、ある文書 x のほぼ常に良い代表であるような候補プール F を選択する他の方法が考えられるので、この改善の余地を考える。 訳抜け防止モード: 私たちはこの改善の余地を考えます。 G(cid:48) をチューニングする方法は他にも多数存在する。 候補プールFを選択して 深層候補は ほぼ常に 与えられた文書xの 良い代表者だ
0.77
How does performance change with the number of sentences k?
文数kでパフォーマンスはどのように変化するのか?
0.79
This is addressed in Figures 4d to 4f.
これは図4dから4fで表される。
0.74
We limit the test set to those documents with k in the listed range on the x-axis.
テストセットは、x軸上のリスト範囲のkを持つドキュメントに制限します。
0.72
We set = 10, the limit of the strong privacy regime.
われわれは、強いプライバシー体制の限界を10と設定した。
0.66
Neither baseline offers performance above that of the random guesser at this value of .
どちらのベースラインも、この値 y のランダムな推測値以上の性能は提供しない。
0.60
DeepCandidate produces precisely the performance we expect to see: documents with more sentences result in sampling higher quality candidates, confirming the insights of Section 4.2.
Across datasets and tasks, documents with more than 10-15 sentences tend to have high quality embeddings.
データセットとタスク間で、10~15文以上のドキュメントは高品質な埋め込みを持つ傾向がある。
0.62
6 Conclusions and Future Work We introduce a strong and interpretable local privacy guarantee for documents, SentDP, along with DeepCandidate, a technique that combines principles from NLP and robust statistics to generate general -SentDP embeddings.
Previous methods have argued that it is “virtually impossible” to satisfy pure local DP (Feyisetan et al , 2019; Feyisetan and Kasiviswanathan, 2021) at the word level while capturing linguistic semantics.
従来の手法では、言葉レベルで純粋なローカルDP(Feyisetan et al , 2019; Feyisetan and Kasiviswanathan, 2021)を満たすことは「事実上不可能」であると主張している。
0.75
Our work appears to refute this notion at least at the document level.
私たちの研究はこの概念を少なくともドキュメントレベルでは否定しているようです。
0.56
To follow up, we plan to explore other approaches (apart from k-means) of capturing the structure of the embedding distribution g(µ) to encourage better candidate selection.
Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov.
Piotr Bojanowski、Edouard Grave、Armand Joulin、Tomas Mikolov。
0.32
2017. Enriching word vectors with subword information.
2017. 単語ベクトルをサブワード情報で強化する。
0.54
Transactions of the Association for Computational Linguistics, 5:135–146.
計算言語学協会 (association for computational linguistics, 5:135–146)。
0.54
Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, Alina Oprea, and Colin Raffel.
ニコラス・カーリーニ、フローリアン・トラム、エリック・ウォレス、マシュー・ジャギエルスキー、アリエル・ハーバート=ヴォス、キャサリン・リー、アダム・ロバーツ、トム・ブラウン、ドーン・ソング、ウルフ・エルリングソン、アリナ・オプレア、コリン・ラフェル。 訳抜け防止モード: Nico Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski アリエル・ハーバート - ヴォス、キャサリン・リー、アダム・ロバーツ、トム・ブラウン。 Dawn Song、Ulfar Erlingsson、Alina Oprea、Colin Raffel。
0.77
2020. Extracting Training Data from Large LanarXiv:2012.07805 [cs].
2020. Large LanarXiv:2012.07805 [cs] によるトレーニングデータの抽出
0.57
ArXiv: guage Models.
ArXiv: ゲージモデル。
0.72
2012.07805.
2012.07805.
0.35
Ricardo Silva Carvalho, Theodore Vasiloudis, and Oluwaseyi Feyisetan.
2021. Tem: High utility metric differential privacy on text.
2021. Tem: テキスト上の高ユーティリティメトリックの差分プライバシー。
0.58
arXiv preprint arXiv:2107.07928.
arXiv preprint arXiv:2107.07928
0.35
Timothy M Chan.
ティモシー・m・チャン
0.42
2004. An optimal randomized algorithm for maximum tukey depth.
2004. 最大タキー深さに対する最適ランダム化アルゴリズム
0.60
In SODA, volume 4, pages 430–436.
SODA』第4巻、430-436頁。
0.60
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
0.38
2019. Bert: Pre-training of deep bidirectional transformers for language understanding.
2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。
0.61
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186.
The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186。 訳抜け防止モード: 計算言語学会北米支部2019年大会の成果 : ヒューマン・ランゲージ・テクノロジー Volume 1 (Long and Short Papers ) 4171–4186頁。
0.54
Cynthia Dwork. 2006.
シンシア・ドワーク 2006.
0.44
Differential Privacy, volume
差分プライバシー,ボリューム
0.69
4052. Cynthia Dwork, Krishnaram Kenthapadi, Frank McSherry, Ilya Mironov, and Moni Naor.
2019. Better word embeddings by disentangling In Proceedings of contextual n-gram information.
2019. コンテキスト n-gram 情報のプロセッシングによる単語埋め込みの改善。
0.53
the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 933–939.
The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 933–939。 訳抜け防止モード: 計算言語学会北米支部2019年大会 : 人間言語技術 第1巻(長編・短編)、933-939頁。
0.49
Yangsibo Huang, Zhao Song, Danqi Chen, Kai Li, and Sanjeev Arora.
2020. TextHide: Tackling data privacy in language understanding tasks.
2020. texthide: 言語理解タスクでデータプライバシに取り組むこと。
0.59
In Findings
発見
0.38
英語(論文から抽出)
日本語訳
スコア
of the Association for Computational Linguistics: EMNLP 2020, pages 1368–1382, Online.
the association for computational linguistics: emnlp 2020, pages 1368–1382, online (英語)
0.82
Association for Computational Linguistics. Ganesh Jawahar, Benoît Sagot, and Djamé Seddah.
計算言語学会会員。 ガニーシュ・ジャワール、ベノシェ・サゴ、ジャメ・セダ。
0.42
2019. What does bert learn about the structure of language?
2019. bertは言語の構造について何を学ぶのか?
0.60
In ACL 2019-57th Annual Meeting of the Association for Computational Linguistics.
ACL 2019-57th Annual Meeting of the Association for Computational Linguistics に参加して
0.40
Peter Kairouz, H Brendan McMahan, Brendan Avent, Aurélien Bellet, Mehdi Bennis, Arjun Nitin Bhagoji, Kallista Bonawitz, Zachary Charles, Graham Cormode, Rachel Cummings, et al 2019.
Peter Kairouz, H Brendan McMahan, Brendan Avent, Aurélien Bellet, Mehdi Bennis, Arjun Nitin Bhagoji, Kallista Bonawitz, Zachary Charles, Graham Cormode, Rachel Cummingsなどなど。
2019a. Multi-task deep neural networks for natural language understanding.
2019年。 自然言語理解のためのマルチタスク深層ニューラルネットワーク
0.75
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4487–4496.
計算言語学会第57回年次大会紀要』4487-4496頁。
0.47
Khalil Mrini, Emilia Farcas, and Ndapa Nakashole.
Khalil Mrini、Emilia Farcas、Ndapa Nakashole。
0.32
2021. Recursive tree-structured self-attention for In Proceedings of the answer sentence selection.
2021. 回答文選択の手続きにおける再帰的木構造的自己対応
0.54
59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 4651–4661, Online.
59th annual meeting of the association for computational linguistics and the 11th international joint conference on natural language processing ( volume 1: long papers, pages 4651–4661, online (英語) 訳抜け防止モード: 第59回計算言語学会大会と第11回自然言語処理国際会議(巻1編長編) 4651-4661頁。
0.55
Association for Computational Linguistics. Xudong Pan, Mi Zhang, Shouling Ji, and Min Yang.
Patrick Verga, Daniel Andor, Emma Strubell, David Weiss, and Andrew McCallum.
Patrick Verga、Daniel Andor、Emma Strubell、David Weiss、Andrew McCallum。
0.37
2018. Linguistically-infor med self-attention for semantic In Proceedings of the 2018 Conferrole labeling.
2018. 2018年コンフェロレラベリングの手続きにおける意味論に対する言語的不完全自認
0.44
ence on Empirical Methods in Natural Language Processing, pages 5027–5038.
自然言語処理における経験的手法について、5027-5038頁。
0.52
Tan Thongtan and Tanasanee Phienthrakul.
Tan Thongtan と Tanasanee Phienthrakul の略。
0.77
2019. Sentiment classification using document embeddings In Proceedings of trained with cosine similarity.
2019. 文書埋め込みによる感性分類 : コサイン類似性の訓練による証明
0.54
the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, pages 407–414.
第57回計算言語学会年次総会:学生研究ワークショップ,407-414ページ
0.64
John W Tukey. 1975.
ジョン・w・タキー 1975.
0.48
Mathematics and the picturIn Proceedings of the International ing of data.
数学とピクチュア データの国際単位の証明
0.44
Congress of Mathematicians, Vancouver, 1975, volume 2, pages 523–531.
1975年、バンクーバー数学会議、第2巻、523-531頁。
0.68
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov.
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 訳抜け防止モード: yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.61
2019b. Roberta: A robustly optimized bert pretraining approach.
2019年。 roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。
0.63
arXiv preprint arXiv:1907.11692.
arXiv preprint arXiv:1907.11692
0.36
Mengting Wan and Julian J. McAuley.
ジュリアン・J・マコーリー(Julian J. McAuley)。
0.49
2018. Item recommendation on monotonic behavior chains.
2018. モノトニックな行動連鎖の項目推奨。
0.53
In Proceedings of the 12th ACM Conference on Recommender Systems, RecSys 2018, Vancouver, BC, Canada, October 2-7, 2018, pages 86–94.
ACM. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts.
acm。 Andrew L. Maas、Raymond E. Daly、Peter T. Pham、Dan Huang、Andrew Y. Ng、Christopher Potts。
0.74
2011. Learning word vectors for sentiment analysis.
2011. 感情分析のための単語ベクトルの学習
0.60
In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 142–150, Portland, Oregon, USA.
第49回計算言語学会年次総会の議事録:人間言語技術142-150ページ、オレゴン州ポートランド。
0.56
Association for Computational Linguistics. Frank McSherry and Kunal Talwar.
計算言語学会会員。 フランク・マクシェリーとクナル・タルワー。
0.51
2007. Mechanism
2007. メカニズム
0.61
Design via Differential Privacy.
差分プライバシーによる設計。
0.75
Shangyu Xie and Yuan Hong.
チャンギュシーとアン・ホンだ
0.33
2021. Reconstruction attack on instance encoding for language understanding.
2021. 言語理解のためのインスタンスエンコーディングの再構築攻撃。
0.60
In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 2038–2044.
自然言語処理における経験的方法に関する2021年会議の成果、2038–2044頁。
0.73
Nan Xu, Oluwaseyi Feyisetan, Abhinav Aggarwal, Zekun Xu, and Nathanael Teissier.
Nan Xu, Oluwaseyi Feyisetan, Abhinav Aggarwal, Zekun Xu, Nathanaelteissier。
0.33
2021. DensityAware Differentially Private Textual Perturbations Using Truncated Gumbel Noise.
2021. トレンシ化ガンベルノイズを用いた個人用テキスト摂動の密度認識
0.48
The International FLAIRS Conference Proceedings, 34(1).
国際フレア会議(国際フレア会議)、34(1)。
0.70
英語(論文から抽出)
日本語訳
スコア
Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy.
2016. Hierarchical attention networks for document classification.
2016. 文書分類のための階層的注意ネットワーク
0.62
In Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies, pages 1480–1489.
2016年の北米計算言語学会(the association for computational linguistics: human language technologies, pp. 1480–1489)で発表された。
0.77
David Yenicelik, Florian Schmidt, and Yannic Kilcher.
David Yenicelik、Florian Schmidt、Yannic Kilcher。
0.31
2020. How does bert capture semantics?
2020. bertはどのようにセマンティクスを取り込むのか?
0.40
a closer In Proceedings of the look at polysemous words.
多義語に目を向ける手続きをもっと詳しく。
0.46
Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, pages 156– 162.
The Third BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, page 156–162.
0.47
Xiang Yue, Minxin Du, Tianhao Wang, Yaliang Li, Huan Sun, and Sherman S. M. Chow.
Tukey Depth (cid:99)TDSx(fi), which is an adaptation of
Tukey Depth (cid:99)TDSx(fi) の適応
0.32
the general median hypothesis algorithm proposed by Gilad-Bachrach and Burges (2012).
Gilad-Bachrach and Burges (2012) による一般的な中央値仮説アルゴリズム。
0.73
Note that we can precompute the projections on line 10.
10行の投影を事前計算できることに注意。
0.56
The runtime is O(mkp): for each of m candidates and on each of p projections, we need to compute the scalar difference with k sentence embeddings.
ランタイムは O(mkp) であり、各 m 個の候補と各 p 個の射影に対して k 個の文の埋め込みでスカラー差を計算する必要がある。
0.67
Sampling from the multinomial distribution defined by PF then takes O(m) time.
pf によって定義される多項分布からのサンプリングは o(m) 時間を要する。
0.73
Additionally note from lines 13 and 15 that utility has a maximum of 0 and a minimum of − k 2 , which is a semantic change from the main paper where maximum utility is k
さらに、ユーティリティが最大 0 で最小 − k 2 であり、最大ユーティリティが k であるメインペーパーからの意味的変化である、という13行目と15行目からの注記もある。
on unit sphere 3 for i ∈ [k] do for j ∈ [p] do (cid:124) i ← s sj i vj
i ∈ [k] do for j ∈ [p] do (cid:124) i s sj i vj に対する単位球面 3 について
0.89
4 9 end for 5 6 7 end for 8 for i ∈ [m] do for j ∈ [p] do (cid:124) i ← f f j i vj /* Compute depth of fi on projection vj hj(x, fi) ← #{sj l ≥ f j [k]}
4 9 終わりだ 5 6 7 end for 8 for i ∈ [m] do for j ∈ [p] do (cid:124) i . f f j i vj /* 射影 vj hj(x, fi) . #{sj l ≥ f j [k]} 上の fi の深さを計算する。
0.58
uj(x, fi) ← −(cid:12)(cid:12)hj(x , fi) − k
uj(x, fi) > −(cid:12)(cid:12)hj(x , fi) − k
0.49
l : sj (cid:12)(cid:12)
l : sj (cid:12)(cid:12)
0.40
10 11 12 2
10 11 12 2
0.43
*/ i , l ∈
*/ i , l ∈
0.64
16 end for 17 Ψ ←(cid:80)m
16の終わり 17 ψ(cid:80)m
0.59
ˆPfi 18 for i ∈ [m] do Pfi ← 1 ˆPfi
i ∈ [m] に対する pfi 18 は pfi を 1 にする。
0.79
i=1 19 20 end for 21 return PF
i=1 である。 19 20 end for 21 return PF
0.37
Ψ 13 14 15
Ψ 13 14 15
0.57
end for u(x, fi) ← maxj∈[p] uj(x, fi) ˆPfi ← exp(u(x, fi)/2)
u(x, fi) の終端 (p) uj(x, fi) の終端 (u(x, fi)/2)
0.65
英語(論文から抽出)
日本語訳
スコア
The last step follows from the fact that |hj(x, fi)− hj(x(cid:48), fi)| ≤ 1 for all j ∈ [p].
2 A.3 Experimental Details Here, we provide an extended, detailed version of section 5.
2 A.3 実験の詳細 ここでは、セクション5の拡張された詳細版を提供します。
0.59
For the general encoder, G : S → R768, we use SBERT (Reimers and Gurevych, 2019), a version of BERT fine-tuned for sentence encoding.
一般的なエンコーダ G : S → R768 では、文のエンコードのために細調整された BERT のバージョンである SBERT (Reimers and Gurevych, 2019) を用いる。
0.79
Sentence embeddings are generated by mean-pooling output tokens.
文埋め込みは平均プール出力トークンによって生成される。
0.52
In all tasks, we freeze the weights of SBERT.
すべてのタスクにおいて、SBERTの重みを凍結する。
0.65
The cluster-preserving recoder, H, as well as every classifier is implemented as an instance of a 4-layer MLP taking 768-dimension inputs and only differing on output dimension.
Non-private: For our non-private baseline, we demonstrate the usefulness of sentence-mean document embeddings.
プライベートでないベースラインでは、文平均文書の埋め込みの有用性を示す。
0.59
First, we generate the document embeddings g(xi) for each training, validation, and test set document using SBERT, G. We then train a classifier Cnonpriv = MLPr to predict each document’s topic or sentiment, where r is the number of classes.
The number of training epochs is determined with the validation set.
検証セットにより、トレーニング期間の数を決定する。
0.66
DeepCandidate: We first collect the candidate set F by sampling 5k document embeddings from the subset of the training set containing at least 8 sentences.
We run k-means with nc = 50 cluster centers, and label each training set document embedding ti ∈ TG with its cluster.
我々は、nc = 50 のクラスタ中心を持つ k-平均を実行し、各トレーニングセットの文書に Ti ∈ TG をクラスタに埋め込む。
0.75
The sentence recoder, H = MLP768 is trained on the training set along with the linear model L with the Adam optimizer and cross-entropy loss.
文リコーダ h = mlp768 は、adamオプティマイザとクロスエントロピー損失を伴う線形モデル l と共にトレーニングセット上で訓練される。
0.68
For a given document x, its sentence embeddings Sx are passed through H, averaged together, and then passed to L to predict x’s cluster.
与えられた文書 x に対して、その文の埋め込み Sx は H を通過して平均化され、その後 L に渡されて x のクラスタを予測する。
0.74
L’s loss is then back-propagated
lの損失はバックプロパゲーションされる
0.71
through H. A classifier Cdc = MLPr is trained in parallel using a separate instance of the Adam optimizer to predict class from the recoded embeddings, where r is the number of classes (topics or sentiments).
The number of epochs is determined with the validation set.
検証セットによりエポック数を決定する。
0.46
At test time, a document’s sentence embeddings Sx are truncated and averaged.
テスト時には、文書の文の埋め込み Sx が切り替わり、平均化されます。
0.69
We then add Laplace noise to each dimension with k , where w is the width of the box scale factor 768w on that dimension (sensitivity in DP terms).
すると、各次元に k = でラプラスノイズを加え、w はその次元上のボックススケール係数 768w の幅(DP の感度)である。
0.70
Note that the standard deviation of noise added is inversely proportional to the number of sentences in the document, due to the averaging operation reducing sensitivity.
加算された雑音の標準偏差は、平均化操作が感度を低下させるため、文書中の文数に逆比例する。
0.67
Word Metric-DP: Our next baseline satisfies word-level metric DP and is adopted from (Feyisetan et al , 2019).
word metric-dp: 次のベースラインは,単語レベルのメートル dp を満たすもので,(feyisetan et al , 2019) から採用されています。
0.59
The corresponding mechanism MDP : X → X takes as input a document x and returns a private version, x(cid:48), by randomizing each word individually.
対応するメカニズム MDP : X → X は文書 x を入力として取り、各単語を個別にランダム化してプライベートバージョン x(cid:48) を返す。
0.84
For comparison, we generate document embeddings by first randomizing the document x(cid:48) = MDP(x) as prescribed by (Feyisetan et al , 2019), and then computing its document embedding g(x(cid:48)) using SBERT.
比較のために、まず文書 x(cid:48) = MDP(x) を (Feyisetan et al , 2019) で定めるようにランダム化し、次に SBERT を用いて文書埋め込み g(x(cid:48)) を演算することで文書埋め込みを生成する。
0.78
At test time, we classify the word-private document embedding using Cnonpriv.
テスト時には、cnonprivを使ってword-privateドキュメント埋め込みを分類する。
0.68
Random Guess: To set a bottom-line, we show the theoretical performance of a random guesser.
Random Guess: ボトムラインを設定するには、ランダムな推測器の理論的性能を示す。
0.74
The guesser chooses class i with probability qi equal to the fraction of i labels in the training set.
推測者は、トレーニングセット内のiラベルの分数に等しい確率 qi のクラス i を選択する。
0.75
The performance is then given by(cid:80)r
パフォーマンスは(cid:80)rによって与えられる
0.81
i . i=1 q2
私は... i=1 q2
0.31
A.4 Reproducability Details We plan to publish a repo of code used to generate the exact figures in this paper (random seeds have been set) with the final version.
We do this for efficiency in computing the Metric-DP baseline, which is the slowest of all algorithms performed.
これは、最も遅いアルゴリズムであるメートル法-dpベースラインの計算効率を高めるために行われる。
0.73
Since the Metric-DP baseline randomizes first, we cannot precompute the sentence embeddings G(si) – we need to compute the sentence embeddings every single time we randomize.
Since we randomize for each sentence of each document at each and each k over 5 trials – this takes a considerable amount of time.
それぞれの文書の各文を、各 k が 5 以上の試行でランダム化するので、これはかなりの時間を要する。
0.68
Good Reads: This dataset as provided is quite large.
Good Reads: このデータセットは、非常に大きいです。
0.89
We randomly sample 15000 documents from each of 4 classes, and split them into 12K training examples, 2K validation examples, and 1K test examples per class.
20 News Groups: We preprocess this dataset to remove all header information, which may more directly tell information about document class, and only provide the model with the sentences from the main body.