論文の概要: Simplify-then-Translate: Automatic Preprocessing for Black-Box Machine
Translation
- arxiv url: http://arxiv.org/abs/2005.11197v2
- Date: Wed, 27 May 2020 15:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:06:38.262045
- Title: Simplify-then-Translate: Automatic Preprocessing for Black-Box Machine
Translation
- Title(参考訳): Simplify-then-Translate: Black-Box 機械翻訳のための自動前処理
- Authors: Sneha Mehta, Bahareh Azarnoush, Boris Chen, Avneesh Saluja, Vinith
Misra, Ballav Bihani, Ritwik Kumar
- Abstract要約: 文の単純化による自動前処理(APP)によるブラックボックス機械翻訳システムの改善手法を提案する。
まず,ブラックボックスMTシステムによるバックトランスレーションにより,大規模なドメイン内パラフレーズコーパスを自動生成する手法を提案する。
この前処理によって、非前処理のソース文と比較して翻訳性能が向上することを示す。
- 参考スコア(独自算出の注目度): 5.480070710278571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Black-box machine translation systems have proven incredibly useful for a
variety of applications yet by design are hard to adapt, tune to a specific
domain, or build on top of. In this work, we introduce a method to improve such
systems via automatic pre-processing (APP) using sentence simplification. We
first propose a method to automatically generate a large in-domain paraphrase
corpus through back-translation with a black-box MT system, which is used to
train a paraphrase model that "simplifies" the original sentence to be more
conducive for translation. The model is used to preprocess source sentences of
multiple low-resource language pairs. We show that this preprocessing leads to
better translation performance as compared to non-preprocessed source
sentences. We further perform side-by-side human evaluation to verify that
translations of the simplified sentences are better than the original ones.
Finally, we provide some guidance on recommended language pairs for generating
the simplification model corpora by investigating the relationship between ease
of translation of a language pair (as measured by BLEU) and quality of the
resulting simplification model from back-translations of this language pair (as
measured by SARI), and tie this into the downstream task of low-resource
translation.
- Abstract(参考訳): ブラックボックスの機械翻訳システムは、様々なアプリケーションで驚くほど有用であることが証明されているが、デザインによっては、特定のドメインに適応したり、チューニングしたり、その上に構築するのは難しい。
本研究では,文の単純化による自動前処理(APP)によるシステム改善手法を提案する。
まず、ブラックボックスMTシステムを用いて、翻訳に役立てるために原文を「単純化」するパラフレーズモデルをトレーニングするために、大きなドメイン内パラフレーズコーパスを自動的に生成する手法を提案する。
このモデルは、複数の低リソース言語ペアのソース文の前処理に使用される。
この前処理は,非前処理文に比べて翻訳性能が向上することを示す。
さらに, 要約文の翻訳が原文より優れていることを確認するために, 並べて人間による評価を行う。
最後に、言語ペアの翻訳容易性(BLEUで測定される)と、この言語ペアの逆翻訳(SARIで測定される)から得られる単純化モデルの品質の関係を調べた上で、単純化モデルコーパスを生成するための推奨言語ペアに関するガイダンスを提供し、低リソース翻訳の下流タスクに結びつける。
関連論文リスト
- Paraphrase-Aligned Machine Translation [7.258916315600866]
大規模言語モデル(LLM)は機械翻訳において重要な機能を示している。
本稿では,LLMを微調整して文を言い換える手法であるParaAlign Translatorを提案する。
実験結果から,LLaMA-3-8Bモデルの性能は資源豊富な場合と低リソースの場合の両方で向上することが示された。
論文 参考訳(メタデータ) (2024-12-08T12:17:26Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Unsupervised Neural Machine Translation with Generative Language Models
Only [19.74865387759671]
生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。
本手法は, 数発増幅, 蒸留, 逆翻訳の3段階からなる。
論文 参考訳(メタデータ) (2021-10-11T17:35:34Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Semi-Supervised Text Simplification with Back-Translation and Asymmetric
Denoising Autoencoders [37.949101113934226]
テキスト単純化(TS)は、長い文を単純化した変種に言い換え、固有の意味を保ちながら表現する。
本研究では,TSタスクにおける大量の未ペアコーパスの活用方法について検討する。
本稿では,異なる複雑さを持つ文に対する非対称な記述法を提案する。
論文 参考訳(メタデータ) (2020-04-30T11:19:04Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。