論文の概要: Translating away Translationese without Parallel Data
- arxiv url: http://arxiv.org/abs/2310.18830v1
- Date: Sat, 28 Oct 2023 22:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:20:38.508724
- Title: Translating away Translationese without Parallel Data
- Title(参考訳): 並列データのない翻訳文の翻訳
- Authors: Rricha Jalota, Koel Dutta Chowdhury, Cristina Espa\~na-Bonet, Josef
van Genabith
- Abstract要約: 翻訳されたテキストは、同じ言語の原文と比較して体系的な言語的差異を示す。
本稿では,翻訳文の翻訳文を減らすための新しい手法について検討する。
自己監督損失と教師なし損失を組み合わせて並列検証データの必要性を解消する方法を示す。
- 参考スコア(独自算出の注目度): 14.423809260672877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translated texts exhibit systematic linguistic differences compared to
original texts in the same language, and these differences are referred to as
translationese. Translationese has effects on various cross-lingual natural
language processing tasks, potentially leading to biased results. In this
paper, we explore a novel approach to reduce translationese in translated
texts: translation-based style transfer. As there are no parallel
human-translated and original data in the same language, we use a
self-supervised approach that can learn from comparable (rather than parallel)
mono-lingual original and translated data. However, even this self-supervised
approach requires some parallel data for validation. We show how we can
eliminate the need for parallel validation data by combining the
self-supervised loss with an unsupervised loss. This unsupervised loss
leverages the original language model loss over the style-transferred output
and a semantic similarity loss between the input and style-transferred output.
We evaluate our approach in terms of original vs. translationese binary
classification in addition to measuring content preservation and target-style
fluency. The results show that our approach is able to reduce translationese
classifier accuracy to a level of a random classifier after style transfer
while adequately preserving the content and fluency in the target original
style.
- Abstract(参考訳): 翻訳されたテキストは同じ言語の原文と比較して体系的な言語的差異を示しており、これらの違いを翻訳と呼ぶ。
翻訳は言語間自然言語処理タスクに影響を与え、バイアスのある結果につながる可能性がある。
本稿では,翻訳文の翻訳量を削減するための新しい手法である翻訳ベースのスタイル転送について検討する。
同じ言語に並列な人間翻訳データやオリジナルデータがないため、並列的なモノリンガルのオリジナルデータや翻訳データから学習できる自己教師型アプローチを用いています。
しかし、この自己管理アプローチでさえ、検証にはいくつかの並列データが必要である。
自己監督損失と教師なし損失を組み合わせて並列検証データの必要性を解消する方法を示す。
この教師なし損失は、スタイル転送出力に対するオリジナルの言語モデル損失と、入力とスタイル転送出力の間の意味的類似性損失を活用する。
本手法は, コンテンツ保存とターゲット型フラレンシの測定に加えて, オリジナル対翻訳二分分類の観点で評価した。
提案手法は,文体変換後の翻訳文の分類精度を,文体変換後のランダムな分類文のレベルまで低減し,内容と文体流用度を適切に保存できることを示す。
関連論文リスト
- Original or Translated? On the Use of Parallel Data for Translation
Quality Estimation [81.27850245734015]
並列データと実QEデータの間には,大きなギャップがある。
並列データの場合、それは無差別であり、翻訳文はソースまたはターゲットサイドで発生する可能性がある。
パラレルコーパスのソース元部分の使用は、そのターゲット元よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-12-20T14:06:45Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - As Little as Possible, as Much as Necessary: Detecting Over- and
Undertranslations with Contrastive Conditioning [42.46681912294797]
本稿では,ニューラルマシン翻訳における過剰な単語の検出手法を提案する。
我々は,翻訳モデルに基づく全列の確率と,対応するソースやターゲットシーケンスを考慮に入れた部分の確率を比較する。
これにより、参照翻訳がなくても、翻訳中の過剰な単語とソース内の未翻訳の単語をピンポイントで特定することができる。
論文 参考訳(メタデータ) (2022-03-03T18:59:02Z) - Oolong: Investigating What Makes Transfer Learning Hard with Controlled
Studies [21.350999136803843]
GLUEベンチマークの言語を体系的に変換し、言語間変動の1軸を一度に変更する。
モデルが構文的変化から大きく回復することはできるが,語彙的誤りから回復することは不可能である。
我々の実験は、言語移行シナリオを設計する際に研究者が最も注目すべき言語間移動の要因に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-02-24T19:00:39Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。