論文の概要: Preventing Author Profiling through Zero-Shot Multilingual
Back-Translation
- arxiv url: http://arxiv.org/abs/2109.09133v1
- Date: Sun, 19 Sep 2021 14:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 10:14:51.652051
- Title: Preventing Author Profiling through Zero-Shot Multilingual
Back-Translation
- Title(参考訳): ゼロショット多言語バックトランスレーションによる著者プロファイリングの防止
- Authors: David Ifeoluwa Adelani, Miaoran Zhang, Xiaoyu Shen, Ali Davody, Thomas
Kleinbauer, and Dietrich Klakow
- Abstract要約: 多言語バックトランスレーションによる著者プロファイリングのリスクを効果的に低減する,シンプルなゼロショット方式を提案する。
自動評価と人的評価の両方の結果から,本手法が全体の性能を最高のものにすることが示された。
私たちは、ダウンストリームタスクでオリジナルのユーティリティの95%を保ちながら、性別と人種の敵対的な予測を最大22%まで下げることができます。
- 参考スコア(独自算出の注目度): 15.871735427038386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Documents as short as a single sentence may inadvertently reveal sensitive
information about their authors, including e.g. their gender or ethnicity.
Style transfer is an effective way of transforming texts in order to remove any
information that enables author profiling. However, for a number of current
state-of-the-art approaches the improved privacy is accompanied by an
undesirable drop in the down-stream utility of the transformed data. In this
paper, we propose a simple, zero-shot way to effectively lower the risk of
author profiling through multilingual back-translation using off-the-shelf
translation models. We compare our models with five representative text style
transfer models on three datasets across different domains. Results from both
an automatic and a human evaluation show that our approach achieves the best
overall performance while requiring no training data. We are able to lower the
adversarial prediction of gender and race by up to $22\%$ while retaining
$95\%$ of the original utility on downstream tasks.
- Abstract(参考訳): 単文ほど短い文書では、性別や民族など、著者に関する機密情報が不注意に明かされることがある。
スタイル転送は、著者のプロファイリングを可能にする情報を取り除くために、テキストを変換する効果的な方法である。
しかし、現在の多くの最先端のアプローチでは、改善されたプライバシには変換データのダウンストリームユーティリティが望ましくない低下が伴う。
本稿では,本論文の翻訳モデルを用いて,多言語逆翻訳による著者プロファイルのリスクを効果的に低減する簡易なゼロショット手法を提案する。
我々は、異なるドメインにわたる3つのデータセット上の5つの代表的なテキストスタイル転送モデルと比較する。
自動評価と人的評価の両方の結果から,本手法はトレーニングデータを必要とせず,最高の総合的な性能を達成することが示された。
私たちは、性別と人種の敵対的な予測を最大222ドルまで下げることができ、一方、下流タスクで元のユーティリティの95セントを維持できます。
関連論文リスト
- Prefix-Tuning Based Unsupervised Text Style Transfer [29.86587278794342]
教師なしテキストスタイル転送は、その内容を保持しながら入力文のスタイルを変更することができる生成モデルを訓練することを目的としている。
本稿では,事前学習された強力な大規模言語モデルを用いて,教師なしテキストスタイル転送のためのプレフィックス・チューニング方式を提案する。
論文 参考訳(メタデータ) (2023-10-23T06:13:08Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Prompt-Based Editing for Text Style Transfer [25.863546922455498]
テキストスタイル転送のためのプロンプトベースの編集手法を提案する。
我々は,プロンプトベースの生成問題を,学習自由なプロセスである分類問題に変換する。
我々のアプローチは、20倍のパラメータを持つ最先端のシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-27T21:31:14Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Few-shot Controllable Style Transfer for Low-Resource Settings: A Study
in Indian Languages [13.980482277351523]
スタイル転送は、その内容を保持しながら入力文をターゲットスタイルに書き換えるタスクである。
パラフレーズ間のスタイリスティックな差異をモデル化した新しい手法により,数ショットスタイルのトランスファーの最先端を推し進める。
本モデルでは,5言語にまたがる形式性伝達およびコード混合付加における性能と出力の多様性を2~3倍に向上する。
論文 参考訳(メタデータ) (2021-10-14T14:16:39Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。