論文の概要: Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios
- arxiv url: http://arxiv.org/abs/2305.19757v1
- Date: Wed, 31 May 2023 11:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 17:00:45.357363
- Title: Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios
- Title(参考訳): 多言語シナリオにおける人間および神経機械翻訳の自動識別
- Authors: Malina Chichirau, Rik van Noord and Antonio Toral
- Abstract要約: 我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
- 参考スコア(独自算出の注目度): 4.631167282648452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the task of automatically discriminating between human and machine
translations. As opposed to most previous work, we perform experiments in a
multilingual setting, considering multiple languages and multilingual
pretrained language models. We show that a classifier trained on parallel data
with a single source language (in our case German-English) can still perform
well on English translations that come from different source languages, even
when the machine translations were produced by other systems than the one it
was trained on. Additionally, we demonstrate that incorporating the source text
in the input of a multilingual classifier improves (i) its accuracy and (ii)
its robustness on cross-system evaluation, compared to a monolingual
classifier. Furthermore, we find that using training data from multiple source
languages (German, Russian, and Chinese) tends to improve the accuracy of both
monolingual and multilingual classifiers. Finally, we show that bilingual
classifiers and classifiers trained on multiple source languages benefit from
being trained on longer text sequences, rather than on sentences.
- Abstract(参考訳): 我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
従来の研究とは対照的に、複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
一つのソース言語で並列データに基づいて訓練された分類器(この場合、ドイツ語-英語)は、学習対象以外のシステムで機械翻訳が作成された場合でも、異なるソース言語から派生した英語の翻訳で良好な性能を発揮することを示す。
さらに、多言語分類器の入力にソーステキストを組み込むことにより、より良くなることを示す。
(i)その正確さと
(II) 単言語分類器と比較して, システム間評価に頑健である。
さらに、複数のソース言語(ドイツ語、ロシア語、中国語)からのトレーニングデータを使用することで、単言語と多言語の両方の分類精度が向上する傾向がある。
最後に、複数のソース言語で訓練されたバイリンガル分類器と分類器は、文ではなく、長いテキストシーケンスで訓練される。
関連論文リスト
- T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Informative Language Representation Learning for Massively Multilingual
Neural Machine Translation [47.19129812325682]
多言語ニューラルマシン翻訳モデルでは、通常、人工言語トークンを使用して、所望のターゲット言語への翻訳をガイドする。
近年の研究では、先行する言語トークンは、多言語ニューラルマシン翻訳モデルから正しい翻訳方向へのナビゲートに失敗することがある。
本稿では,言語埋め込み型エンボディメントと言語認識型マルチヘッドアテンションという2つの手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T04:27:17Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。