論文の概要: Understanding Pre-Editing for Black-Box Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2102.02955v1
- Date: Fri, 5 Feb 2021 02:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 17:47:02.081480
- Title: Understanding Pre-Editing for Black-Box Neural Machine Translation
- Title(参考訳): ブラックボックスニューラルマシン翻訳のための事前編集の理解
- Authors: Rei Miyata, Atsushi Fujita
- Abstract要約: 事前編集(英: Pre-editing)とは、機械翻訳(MT)によりより高品質に翻訳できるように、ソーステキスト(ST)を変更するプロセスである。
ブラックボックス型ニューラルMT (NMT) の予測不可能性にもかかわらず, 様々な実用的MT症例にプレ編集が適用されている。
- 参考スコア(独自算出の注目度): 12.538755088321404
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-editing is the process of modifying the source text (ST) so that it can
be translated by machine translation (MT) in a better quality. Despite the
unpredictability of black-box neural MT (NMT), pre-editing has been deployed in
various practical MT use cases. Although many studies have demonstrated the
effectiveness of pre-editing methods for particular settings, thus far, a deep
understanding of what pre-editing is and how it works for black-box NMT is
lacking. To elicit such understanding, we extensively investigated human
pre-editing practices. We first implemented a protocol to incrementally record
the minimum edits for each ST and collected 6,652 instances of pre-editing
across three translation directions, two MT systems, and four text domains. We
then analysed the instances from three perspectives: the characteristics of the
pre-edited ST, the diversity of pre-editing operations, and the impact of the
pre-editing operations on NMT outputs. Our findings include the following: (1)
enhancing the explicitness of the meaning of an ST and its syntactic structure
is more important for obtaining better translations than making the ST shorter
and simpler, and (2) although the impact of pre-editing on NMT is generally
unpredictable, there are some tendencies of changes in the NMT outputs
depending on the editing operation types.
- Abstract(参考訳): 事前編集(pre-editing)は、ソーステキスト(st)を機械翻訳(mt)によりより良い品質で翻訳できるように修正するプロセスである。
ブラックボックス型ニューラルMT (NMT) の予測不可能性にもかかわらず, 様々な実用的MT症例にプレ編集が適用されている。
多くの研究は、特定の設定で事前編集する方法の有効性を実証しているが、これまでのところ、事前編集とは何か、ブラックボックスnmtでどのように機能するかの深い理解が欠けている。
このような理解を引き出すために、私たちは人間の事前編集プラクティスを幅広く調査した。
まず,ST毎の最小編集をインクリメンタルに記録するプロトコルを実装し,3つの翻訳方向,2つのMTシステム,4つのテキストドメインにまたがる事前編集の6,652のインスタンスを収集した。
次に, 事前編集STの特性, 事前編集操作の多様性, NMT出力に対する事前編集操作の影響の3つの観点から分析を行った。
本研究は,(1)STの意味の明示性の向上と,その構文構造がSTの短縮・簡易化よりも優れた翻訳を得る上で重要であること,(2)NMTに対する事前編集の影響は概ね予測できないが,編集操作の種類によってNMT出力に変化が生じる傾向があること,などの知見を得た。
関連論文リスト
- Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Leveraging GPT-4 for Automatic Translation Post-Editing [23.65958978995292]
GPT-4は翻訳後編集に長けており、有意義で信頼できる翻訳編集が可能である。
GPT-4に基づく後編集を用いて、WMT-22英語、英語、英語、中国語、ドイツ語のペアの最先端性能を改善した。
論文 参考訳(メタデータ) (2023-05-24T08:30:05Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - Understanding and Improving Sequence-to-Sequence Pretraining for Neural
Machine Translation [48.50842995206353]
本研究は,Seq2Seqプレトレーニングと従来のエンコーダによるNMTの事前トレーニングとの主な違いである,共同事前学習デコーダの影響について検討する。
我々は、ドメインと目的の相違を緩和するために、ドメイン内の事前訓練と入力適応という、シンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2022-03-16T07:36:28Z) - Neural Machine Translation Quality and Post-Editing Performance [0.04654201857155095]
我々は高品質なニューラルMT(NMT)に注力し、それ以来最先端のアプローチとなり、ほとんどの翻訳会社にも採用されている。
すべてのモデルにおいて、優れたMTシステムによって、この業界環境での文の変化が少ないことが分かりました。
句ベースのMTの結果とは対照的に、BLEUは時間や最終的な出力品質の安定な予測器ではない。
論文 参考訳(メタデータ) (2021-09-10T17:56:02Z) - Better Neural Machine Translation by Extracting Linguistic Information
from BERT [4.353029347463806]
ニューラルマシン翻訳(NMT)に言語情報を追加することは、主に事前訓練されたモデルからの点推定の使用に焦点を当てている。
我々は点推定の代わりにBERTから細調整ベクターベース言語情報を抽出することによりNMTを増強する。
論文 参考訳(メタデータ) (2021-04-07T00:03:51Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。