論文の概要: TextHide: Tackling Data Privacy in Language Understanding Tasks
- arxiv url: http://arxiv.org/abs/2010.06053v1
- Date: Mon, 12 Oct 2020 22:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:28:44.813867
- Title: TextHide: Tackling Data Privacy in Language Understanding Tasks
- Title(参考訳): TextHide: 言語理解タスクでデータのプライバシに取り組む
- Authors: Yangsibo Huang, Zhao Song, Danqi Chen, Kai Li, Sanjeev Arora
- Abstract要約: TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
- 参考スコア(独自算出の注目度): 54.11691303032022
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: An unsolved challenge in distributed or federated learning is to effectively
mitigate privacy risks without slowing down training or reducing accuracy. In
this paper, we propose TextHide aiming at addressing this challenge for natural
language understanding tasks. It requires all participants to add a simple
encryption step to prevent an eavesdropping attacker from recovering private
text data. Such an encryption step is efficient and only affects the task
performance slightly. In addition, TextHide fits well with the popular
framework of fine-tuning pre-trained language models (e.g., BERT) for any
sentence or sentence-pair task. We evaluate TextHide on the GLUE benchmark, and
our experiments show that TextHide can effectively defend attacks on shared
gradients or representations and the averaged accuracy reduction is only
$1.9\%$. We also present an analysis of the security of TextHide using a
conjecture about the computational intractability of a mathematical problem.
Our code is available at https://github.com/Hazelsuko07/TextHide
- Abstract(参考訳): 分散学習や連合学習における未解決の課題は、トレーニングを遅くしたり、精度を低下させることなく、効果的にプライバシーリスクを軽減することである。
本稿では,自然言語理解タスクの課題に対処することを目的としたTextHideを提案する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元しないように、簡単な暗号化ステップを追加する必要がある。
このような暗号化ステップは効率的であり、タスクのパフォーマンスにのみ影響する。
さらにTextHideは、任意の文や文ペアタスクに対して、微調整済みの言語モデル(例えばBERT)の一般的なフレームワークに適合する。
実験の結果、texthideは共有勾配や表現に対する攻撃を効果的に防御でき、平均的な精度の低下は1.9\%$であることがわかった。
また,数学的な問題に対する計算的難解性に関する予想を用いて,TextHideのセキュリティの分析を行った。
私たちのコードはhttps://github.com/Hazelsuko07/TextHideで利用可能です。
関連論文リスト
- IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation [5.043563227694139]
大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。
本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T08:43:46Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - Revisiting the Roles of "Text" in Text Games [102.22750109468652]
本稿では,強化学習におけるテキストの役割について検討する。
本稿では,関連するコンテキスト情報を近似状態ハッシュに抽出する簡単な手法を提案する。
このような軽量なプラグインは最先端のテキストエージェントとの競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T21:52:39Z) - Autoregressive Linguistic Steganography Based on BERT and Consistency
Coding [17.881686153284267]
言語ステガノグラフィ(LS)は、秘密情報をテキストに埋め込むことによって、コミュニケーションの存在を隠蔽する。
近年のアルゴリズムでは、言語モデル(LM)を用いてステガノグラフテキストを生成する。
本稿では,BERTと整合性符号化に基づく自己回帰型LSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-26T02:36:55Z) - A General Multi-Task Learning Framework to Leverage Text Data for Speech
to Text Tasks [36.216979991706594]
本稿では,自動音声認識(ASR)と音声翻訳(ST)タスクのためのテキストデータを活用する汎用マルチタスク学習フレームワークを提案する。
テキスト入力を音素シーケンスとして表現することで、音声とテキスト入力の差を減らし、テキストコーパスからテキストタスクへの知識伝達を促進できることを示す。
論文 参考訳(メタデータ) (2020-10-21T22:40:43Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Offensive Language Detection: A Comparative Analysis [2.5739449801033842]
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
論文 参考訳(メタデータ) (2020-01-09T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。