論文の概要: Guiding Text-to-Text Privatization by Syntax
- arxiv url: http://arxiv.org/abs/2306.01471v1
- Date: Fri, 2 Jun 2023 11:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:14:43.231481
- Title: Guiding Text-to-Text Privatization by Syntax
- Title(参考訳): 構文解析によるテキスト・テキスト・プライバタイゼーションの指導
- Authors: Stefan Arnold, Dilara Yesilbas, Sven Weinzierl
- Abstract要約: メトリック微分プライバシー(Metric Differential Privacy)は、テキストからテキストへのプライベート化というユニークな課題に対処するために設計された、差分プライバシーの一般化である。
置換後の単語の文法的カテゴリを保存するために,テキスト・テキスト・プライベート化の能力を分析する。
我々は、民営化のステップを、置換が一致した文法特性を持つ単語に向けられる候補選択問題に変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metric Differential Privacy is a generalization of differential privacy
tailored to address the unique challenges of text-to-text privatization. By
adding noise to the representation of words in the geometric space of
embeddings, words are replaced with words located in the proximity of the noisy
representation. Since embeddings are trained based on word co-occurrences, this
mechanism ensures that substitutions stem from a common semantic context.
Without considering the grammatical category of words, however, this mechanism
cannot guarantee that substitutions play similar syntactic roles. We analyze
the capability of text-to-text privatization to preserve the grammatical
category of words after substitution and find that surrogate texts consist
almost exclusively of nouns. Lacking the capability to produce surrogate texts
that correlate with the structure of the sensitive texts, we encompass our
analysis by transforming the privatization step into a candidate selection
problem in which substitutions are directed to words with matching grammatical
properties. We demonstrate a substantial improvement in the performance of
downstream tasks by up to $4.66\%$ while retaining comparative privacy
guarantees.
- Abstract(参考訳): メトリックディファレンシャルプライバシは、テキスト間民営化のユニークな課題に対処するために調整されたディファレンシャルプライバシの一般化である。
埋め込みの幾何学的空間における単語の表現にノイズを加えることにより、単語は雑音のある表現の近傍に位置する単語に置き換えられる。
埋め込みは単語共起に基づいて訓練されるので、このメカニズムは置換が共通の意味的文脈に由来することを保証します。
しかし、単語の文法的なカテゴリーを考慮せずに、このメカニズムは置換が同様の構文的役割を果たすことを保証できない。
置換後の単語の文法的カテゴリーを保存するために,テキストからテキストへの民営化の能力を分析し,代理テキストがほぼ名詞のみであることを示す。
センシティブテキストの構造と相関するサロゲートテキストを生成する能力が欠如しているため,民営化のステップを,文法特性に適合する単語に置換が向けられる候補選択問題に変換することで,分析を包含する。
我々は、相対的なプライバシー保証を維持しながら、ダウンストリームタスクのパフォーマンスを最大$4.66\%向上させることを実証する。
関連論文リスト
- A Collocation-based Method for Addressing Challenges in Word-level Metric Differential Privacy [3.0177210416625124]
ワードレベルの$textitMetric$ Differential Privacyアプローチが提案されている。
構成された民営化出力のセマンティックコヒーレンスと可変長を向上する手法を考案する。
本手法を実用性とプライバシテストで評価することにより,単語レベルを超えてトークン化戦略を明確にする。
論文 参考訳(メタデータ) (2024-06-30T09:37:34Z) - RealCustom: Narrowing Real Text Word for Real-Time Open-Domain
Text-to-Image Customization [57.86083349873154]
テキスト・ツー・イメージのカスタマイズは、与えられた被験者に対してテキスト駆動の画像を合成することを目的としている。
既存の作品は擬似語パラダイム、すなわち、与えられた主題を擬似語として表現し、与えられたテキストで合成する。
我々は、RealCustomを初めて、被写体の影響を関連部分のみに正確に制限することで、制御性から類似性を解き放つことを提示する。
論文 参考訳(メタデータ) (2024-03-01T12:12:09Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Disentangling the Linguistic Competence of Privacy-Preserving BERT [0.0]
差別化プライバシ(DP)は、テキストからテキストへの民営化というユニークな課題に対処するために調整されている。
我々は、摂動前文で訓練されたBERTから抽出した内部表現に対して、一連の解釈手法を用いる。
この相違点を解き放つために探索的タスクを用いることで、テキストからテキストへの民営化がいくつかの形式主義における言語能力に影響を及ぼす証拠を見出す。
論文 参考訳(メタデータ) (2023-10-17T16:00:26Z) - Driving Context into Text-to-Text Privatization [0.0]
textitMetric Differential Privacyは、単語のベクトルにノイズを加えることによって、テキストからテキストへの民営化を可能にする。
分類精度が6.05%のかなり高いことを実証する。
論文 参考訳(メタデータ) (2023-06-02T11:33:06Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Using Paraphrases to Study Properties of Contextual Embeddings [46.84861591608146]
我々は、コンテキスト化された埋め込みを分析するために、独自のデータソースとしてパラフレーズを使用します。
パラフレーズは自然に一貫した単語やフレーズのセマンティクスを符号化するため、埋め込みの性質を調査するためのユニークなレンズを提供する。
文脈埋め込みは多文語を効果的に扱うが、多くの場合、驚くほど異なる表現を与える。
論文 参考訳(メタデータ) (2022-07-12T14:22:05Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - MuSeM: Detecting Incongruent News Headlines using Mutual Attentive
Semantic Matching [7.608480381965392]
2つのテキスト間の一致を測定することは、Web上での偽ニュースや誤解を招くニュースの見出しの検出など、いくつかの有用な応用をもたらす。
本稿では,オリジナルと合成した見出しの相互注意に基づくセマンティックマッチング手法を提案する。
提案手法は,2つの公開データセットに対して,先行技術よりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T19:19:42Z) - Privacy Guarantees for De-identifying Text Transformations [17.636430224292866]
我々は、差分プライバシーに基づいて、テキスト変換に基づく復号化手法の正式なプライバシー保証を導出する。
複数の自然言語理解タスクにおける深層学習モデルを用いた,より洗練された単語間置換手法との比較を行った。
単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2020-08-07T12:06:42Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。