論文の概要: Disentangling the Linguistic Competence of Privacy-Preserving BERT
- arxiv url: http://arxiv.org/abs/2310.11363v1
- Date: Tue, 17 Oct 2023 16:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:10:13.396852
- Title: Disentangling the Linguistic Competence of Privacy-Preserving BERT
- Title(参考訳): プライバシ保護BERTの言語能力の両立
- Authors: Stefan Arnold, Nils Kemmerzell, and Annika Schreiner
- Abstract要約: 差別化プライバシ(DP)は、テキストからテキストへの民営化というユニークな課題に対処するために調整されている。
我々は、摂動前文で訓練されたBERTから抽出した内部表現に対して、一連の解釈手法を用いる。
この相違点を解き放つために探索的タスクを用いることで、テキストからテキストへの民営化がいくつかの形式主義における言語能力に影響を及ぼす証拠を見出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differential Privacy (DP) has been tailored to address the unique challenges
of text-to-text privatization. However, text-to-text privatization is known for
degrading the performance of language models when trained on perturbed text.
Employing a series of interpretation techniques on the internal representations
extracted from BERT trained on perturbed pre-text, we intend to disentangle at
the linguistic level the distortion induced by differential privacy.
Experimental results from a representational similarity analysis indicate that
the overall similarity of internal representations is substantially reduced.
Using probing tasks to unpack this dissimilarity, we find evidence that
text-to-text privatization affects the linguistic competence across several
formalisms, encoding localized properties of words while falling short at
encoding the contextual relationships between spans of words.
- Abstract(参考訳): ディファレンシャルプライバシ(dp)は、テキスト間民営化のユニークな課題に対処するために調整されている。
しかし、テキストからテキストへのプライベート化は、摂動テキストで訓練された場合の言語モデルの性能を劣化させることで知られている。
乱用前文で訓練されたbertから抽出された内部表現の一連の解釈手法を用いて,差分プライバシーによって引き起こされる歪みを言語レベルで分離する。
表象的類似性解析による実験の結果、内部表現の全体的類似性は実質的に減少していることが示された。
この相違点を解き明かすために探索タスクを用いることで、テキストからテキストへの民話化が複数の形式主義をまたいだ言語能力に影響を及ぼし、単語の局所的特性を符号化する一方で、単語間の文脈的関係の符号化に不足する証拠を見出した。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - Guiding Text-to-Text Privatization by Syntax [0.0]
メトリック微分プライバシー(Metric Differential Privacy)は、テキストからテキストへのプライベート化というユニークな課題に対処するために設計された、差分プライバシーの一般化である。
置換後の単語の文法的カテゴリを保存するために,テキスト・テキスト・プライベート化の能力を分析する。
我々は、民営化のステップを、置換が一致した文法特性を持つ単語に向けられる候補選択問題に変換する。
論文 参考訳(メタデータ) (2023-06-02T11:52:21Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - DP-BART for Privatized Text Rewriting under Local Differential Privacy [2.45626162429986]
本稿では,既存の LDP システムに大きく勝る新システム "DP-BART" を提案する。
提案手法では,新たなクリッピング手法,反復的プルーニング,およびDP保証に必要なノイズを劇的に低減する内部表現の訓練を用いる。
論文 参考訳(メタデータ) (2023-02-15T13:07:34Z) - The Limits of Word Level Differential Privacy [30.34805746574316]
そこで本稿では, パラフレージング用に微調整されたトランスフォーマーベース言語モデルに基づくテキスト匿名化手法を提案する。
提案手法を徹底的な実験により評価し,提案手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-02T21:53:10Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - Interpretable Privacy Preservation of Text Representations Using Vector
Steganography [0.0]
言語モデル(LM)が生成する文脈表現は、トレーニングコーパスに存在する刺激的な関連を学習する。
敵はこれらの関連を利用して、コーパス内で言及されるエンティティのプライベート属性をリバースエンジニアリングすることができる。
本研究の目的は, ベクトル幾何学にステガノグラフィーを組み込んで, 基礎となるスプリアス結合を解き明かす手法を研究・開発することである。
論文 参考訳(メタデータ) (2021-12-05T12:42:40Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - CAPE: Context-Aware Private Embeddings for Private Language Learning [0.5156484100374058]
Context-Aware Private Embeddings (CAPE)は、埋め込みのトレーニング中にプライバシを保存する新しいアプローチである。
CAPEはディファレンシャルプライバシを通じて校正ノイズを適用し、機密情報を隠蔽しながらエンコードされたセマンティックリンクを保存する。
実験結果から,提案手法は単一介入よりも情報漏洩を低減させることが示された。
論文 参考訳(メタデータ) (2021-08-27T14:50:12Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。