論文の概要: Synthetic Source Language Augmentation for Colloquial Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2012.15178v1
- Date: Wed, 30 Dec 2020 14:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:06:21.599428
- Title: Synthetic Source Language Augmentation for Colloquial Neural Machine
Translation
- Title(参考訳): 口語ニューラルマシン翻訳のための合成ソース言語拡張
- Authors: Asrul Sani Ariesandy, Mukhlis Amien, Alham Fikri Aji, Radityo Eko
Prasojo
- Abstract要約: youtube と twitter から収集した新しいインドネシア英語テストセットを開発した。
インドネシア語正規語のソースに合成スタイル拡張を行い、ベースラインのId-Enモデルを改善することを示す。
- 参考スコア(独自算出の注目度): 3.303435360096988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural machine translation (NMT) is typically domain-dependent and
style-dependent, and it requires lots of training data. State-of-the-art NMT
models often fall short in handling colloquial variations of its source
language and the lack of parallel data in this regard is a challenging hurdle
in systematically improving the existing models. In this work, we develop a
novel colloquial Indonesian-English test-set collected from YouTube transcript
and Twitter. We perform synthetic style augmentation to the source of formal
Indonesian language and show that it improves the baseline Id-En models (in
BLEU) over the new test data.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)は通常ドメインに依存し、スタイルに依存し、多くのトレーニングデータを必要とする。
最先端のNMTモデルは、しばしばソース言語の語彙的バリエーションを扱うのに不足しており、この点において並列データの欠如は、既存のモデルを体系的に改善する上で難しいハードルである。
そこで本研究では,youtube と twitter から収集したインドネシア英語テストセットを開発した。
インドネシア語正規語のソースに対して合成スタイル拡張を行い、新しいテストデータよりもベースラインId-Enモデル(BLEU)を改善したことを示す。
関連論文リスト
- Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z) - PheMT: A Phenomenon-wise Dataset for Machine Translation Robustness on
User-Generated Contents [40.25277134147149]
日本語翻訳における特定の言語現象に対するMTシステムの堅牢性を評価するための新しいデータセットであるPheMTを提案する。
作成したデータセットを用いて行った実験では、社内モデルだけでなく、市販のシステムでも、特定の現象の存在によって大きく混乱していることが明らかになりました。
論文 参考訳(メタデータ) (2020-11-04T04:44:47Z) - Enhanced back-translation for low resource neural machine translation
using self-training [0.0]
本研究は,後進モデルの出力を用いて前方翻訳手法を用いてモデル自体を改善する自己学習戦略を提案する。
この技術は、ベースラインの低リソースであるIWSLT'14とIWSLT'15をそれぞれ11.06と1.5BLEUに改良することを示した。
改良された英語-ドイツ語の後方モデルによって生成された合成データを用いて前方モデルを訓練し、2.7BLEUで標準の後方翻訳を用いて訓練された別の前方モデルより優れていた。
論文 参考訳(メタデータ) (2020-06-04T14:19:52Z) - An In-depth Walkthrough on Evolution of Neural Machine Translation [0.0]
本稿では,ニューラル・マシン・トランスフォーメーションの主なトレンド,ドメイン内のアート・モデルの現状,およびそれらの高レベル比較について検討することを目的とする。
論文 参考訳(メタデータ) (2020-04-10T04:21:05Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。