論文の概要: CipherDAug: Ciphertext based Data Augmentation for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2204.00665v1
- Date: Fri, 1 Apr 2022 19:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:07:21.417387
- Title: CipherDAug: Ciphertext based Data Augmentation for Neural Machine
Translation
- Title(参考訳): CipherDAug: ニューラルネットワーク翻訳のためのCiphertextベースのデータ拡張
- Authors: Nishant Kambhatla, Logan Born and Anoop Sarkar
- Abstract要約: 本稿では,ROT-$k$暗号文に基づくニューラルマシン翻訳のための新しいデータ拡張手法を提案する。
我々の手法であるCipherDAugは、協調正規化にインスパイアされたトレーニング手順を使用し、元のトレーニングデータ以外の外部データソースを必要としない。
- 参考スコア(独自算出の注目度): 7.842152902652213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel data-augmentation technique for neural machine translation
based on ROT-$k$ ciphertexts. ROT-$k$ is a simple letter substitution cipher
that replaces a letter in the plaintext with the $k$th letter after it in the
alphabet. We first generate multiple ROT-$k$ ciphertexts using different values
of $k$ for the plaintext which is the source side of the parallel data. We then
leverage this enciphered training data along with the original parallel data
via multi-source training to improve neural machine translation. Our method,
CipherDAug, uses a co-regularization-inspired training procedure, requires no
external data sources other than the original training data, and uses a
standard Transformer to outperform strong data augmentation techniques on
several datasets by a significant margin. This technique combines easily with
existing approaches to data augmentation, and yields particularly strong
results in low-resource settings.
- Abstract(参考訳): 本稿では,ROT-$k$暗号文に基づくニューラルマシン翻訳のための新しいデータ拡張手法を提案する。
rot-$k$は、平文の文字をアルファベットの後に$k$thの文字に置き換える単純な文字置換暗号である。
まず、並列データのソース側である平文に対して$k$の異なる値を用いて、複数のROT-$k$暗号文を生成する。
次に、この暗号化されたトレーニングデータと、マルチソーストレーニングによる元の並列データを利用して、ニューラルネットワーク翻訳を改善する。
我々の手法であるCipherDAugは、協調正規化にインスパイアされたトレーニング手順を使用し、元のトレーニングデータ以外の外部データソースを必要としない。
このテクニックは、既存のデータ拡張アプローチと簡単に組み合わせることができ、特に低リソース設定で強い結果が得られる。
関連論文リスト
- Deterministic Reversible Data Augmentation for Neural Machine Translation [36.10695293724949]
本稿では,ニューラルネットワーク翻訳のための簡易かつ効果的なデータ拡張法であるDRDA(Deterministic Reversible Data Augmentation)を提案する。
余分なコーパスやモデルの変更は必要ないため、DRDAはいくつかの翻訳タスクにおいて、明確なマージンで強いベースラインを上回ります。
DRDAはノイズ、低リソース、クロスドメインデータセットにおいて優れた堅牢性を示す。
論文 参考訳(メタデータ) (2024-06-04T17:39:23Z) - CipherSniffer: Classifying Cipher Types [0.0]
我々は復号化タスクを分類問題とする。
まず、転置、置換、テキストの反転、単語の反転、文のシフト、暗号化されていないテキストのデータセットを作成します。
論文 参考訳(メタデータ) (2023-06-13T20:18:24Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - FFConv: Fast Factorized Neural Network Inference on Encrypted Data [9.868787266501036]
本稿では、畳み込みと暗号文のパッキングを統一するFFConvと呼ばれる低ランク分解法を提案する。
先行技術であるLoLaとFalconと比較して,提案手法は,それぞれ最大87%,12%の遅延を減少させる。
論文 参考訳(メタデータ) (2021-02-06T03:10:13Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - TEDL: A Text Encryption Method Based on Deep Learning [10.428079716944463]
本稿では,TEDLと呼ばれる深層学習に基づく新しいテキスト暗号化手法を提案する。
実験および関連する分析の結果、TEDLはセキュリティ、効率、汎用性に優れ、キー再配布頻度の低いことが示されている。
論文 参考訳(メタデータ) (2020-03-09T11:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。