Fugu-MT 論文翻訳(概要): Simplify-then-Translate: Automatic Preprocessing for Black-Box Machine Translation

論文の概要: Simplify-then-Translate: Automatic Preprocessing for Black-Box Machine Translation

arxiv url: http://arxiv.org/abs/2005.11197v2
Date: Wed, 27 May 2020 15:37:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 09:06:38.262045
Title: Simplify-then-Translate: Automatic Preprocessing for Black-Box Machine Translation
Title（参考訳）: Simplify-then-Translate: Black-Box 機械翻訳のための自動前処理
Authors: Sneha Mehta, Bahareh Azarnoush, Boris Chen, Avneesh Saluja, Vinith Misra, Ballav Bihani, Ritwik Kumar
Abstract要約: 文の単純化による自動前処理(APP)によるブラックボックス機械翻訳システムの改善手法を提案する。まず,ブラックボックスMTシステムによるバックトランスレーションにより,大規模なドメイン内パラフレーズコーパスを自動生成する手法を提案する。この前処理によって、非前処理のソース文と比較して翻訳性能が向上することを示す。
参考スコア（独自算出の注目度）: 5.480070710278571
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Black-box machine translation systems have proven incredibly useful for a variety of applications yet by design are hard to adapt, tune to a specific domain, or build on top of. In this work, we introduce a method to improve such systems via automatic pre-processing (APP) using sentence simplification. We first propose a method to automatically generate a large in-domain paraphrase corpus through back-translation with a black-box MT system, which is used to train a paraphrase model that "simplifies" the original sentence to be more conducive for translation. The model is used to preprocess source sentences of multiple low-resource language pairs. We show that this preprocessing leads to better translation performance as compared to non-preprocessed source sentences. We further perform side-by-side human evaluation to verify that translations of the simplified sentences are better than the original ones. Finally, we provide some guidance on recommended language pairs for generating the simplification model corpora by investigating the relationship between ease of translation of a language pair (as measured by BLEU) and quality of the resulting simplification model from back-translations of this language pair (as measured by SARI), and tie this into the downstream task of low-resource translation.
Abstract（参考訳）: ブラックボックスの機械翻訳システムは、様々なアプリケーションで驚くほど有用であることが証明されているが、デザインによっては、特定のドメインに適応したり、チューニングしたり、その上に構築するのは難しい。本研究では,文の単純化による自動前処理(APP)によるシステム改善手法を提案する。まず、ブラックボックスMTシステムを用いて、翻訳に役立てるために原文を「単純化」するパラフレーズモデルをトレーニングするために、大きなドメイン内パラフレーズコーパスを自動的に生成する手法を提案する。このモデルは、複数の低リソース言語ペアのソース文の前処理に使用される。この前処理は,非前処理文に比べて翻訳性能が向上することを示す。さらに, 要約文の翻訳が原文より優れていることを確認するために, 並べて人間による評価を行う。最後に、言語ペアの翻訳容易性(BLEUで測定される)と、この言語ペアの逆翻訳(SARIで測定される)から得られる単純化モデルの品質の関係を調べた上で、単純化モデルコーパスを生成するための推奨言語ペアに関するガイダンスを提供し、低リソース翻訳の下流タスクに結びつける。

関連論文リスト

Compositional Translation: A Novel LLM-based Approach for Low-resource Machine Translation [20.704153242284114]
機械翻訳は、翻訳する文と意味的に類似している場合に、文脈内例の恩恵を受けることが示されている。本稿では,LLMに基づく新しい翻訳パラダイムである合成翻訳を提案する。私たちの直感は、これらの短いフレーズは本質的に翻訳が簡単で、関連する例と簡単に一致するので、このアプローチは翻訳を改善するべきだということです。
論文参考訳（メタデータ） (2025-03-06T15:37:31Z)
Paraphrase-Aligned Machine Translation [7.258916315600866]
大規模言語モデル(LLM)は機械翻訳において重要な機能を示している。本稿では,LLMを微調整して文を言い換える手法であるParaAlign Translatorを提案する。実験結果から,LLaMA-3-8Bモデルの性能は資源豊富な場合と低リソースの場合の両方で向上することが示された。
論文参考訳（メタデータ） (2024-12-08T12:17:26Z)
Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文参考訳（メタデータ） (2023-10-23T12:22:15Z)
Decomposed Prompting for Machine Translation Between Related Languages using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。 DecoMTはBLOOMモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-22T14:52:47Z)
BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文参考訳（メタデータ） (2021-11-12T16:00:39Z)
Unsupervised Neural Machine Translation with Generative Language Models Only [19.74865387759671]
生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。本手法は, 数発増幅, 蒸留, 逆翻訳の3段階からなる。
論文参考訳（メタデータ） (2021-10-11T17:35:34Z)
Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文参考訳（メタデータ） (2021-06-21T19:20:42Z)
Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文参考訳（メタデータ） (2020-10-07T03:57:54Z)
Semi-Supervised Text Simplification with Back-Translation and Asymmetric Denoising Autoencoders [37.949101113934226]
テキスト単純化(TS)は、長い文を単純化した変種に言い換え、固有の意味を保ちながら表現する。本研究では,TSタスクにおける大量の未ペアコーパスの活用方法について検討する。本稿では,異なる複雑さを持つ文に対する非対称な記述法を提案する。
論文参考訳（メタデータ） (2020-04-30T11:19:04Z)
Re-translation versus Streaming for Simultaneous Translation [14.800214853561823]
本研究では,厳密な付加語以上の仮説の修正が許される問題について検討する。この設定では、カスタムストリーミングアプローチと再翻訳を比較します。再翻訳は最先端のストリーミングシステムと同じくらい良いか良いかのどちらかだと考えています。
論文参考訳（メタデータ） (2020-04-07T18:27:32Z)
Learning Contextualized Sentence Representations for Document-Level Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-30T03:38:01Z)
Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。 mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文参考訳（メタデータ） (2020-01-22T18:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。