論文の概要: JASS: Japanese-specific Sequence to Sequence Pre-training for Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2005.03361v1
- Date: Thu, 7 May 2020 09:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:15:34.390863
- Title: JASS: Japanese-specific Sequence to Sequence Pre-training for Neural
Machine Translation
- Title(参考訳): jass: ニューラルマシン翻訳のための日本語固有のシーケンスからシーケンス事前学習
- Authors: Zhuoyuan Mao, Fabien Cromieres, Raj Dabre, Haiyue Song, Sadao
Kurohashi
- Abstract要約: JASSはBMASS(Bunsetsu MASS)とBRSS(Bunsetsu Reordering Sequence to Sequence)の共同トレーニングである。
今回,MASS と JASS の併用による事前学習が,個々の手法をはるかに上回る結果となった。
我々は、研究者が自身のNLPタスクで使うためのリソースとして、コード、事前訓練されたモデル、および文節アノテーション付きデータを公開します。
- 参考スコア(独自算出の注目度): 27.364702152624034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural machine translation (NMT) needs large parallel corpora for
state-of-the-art translation quality. Low-resource NMT is typically addressed
by transfer learning which leverages large monolingual or parallel corpora for
pre-training. Monolingual pre-training approaches such as MASS (MAsked Sequence
to Sequence) are extremely effective in boosting NMT quality for languages with
small parallel corpora. However, they do not account for linguistic information
obtained using syntactic analyzers which is known to be invaluable for several
Natural Language Processing (NLP) tasks. To this end, we propose JASS,
Japanese-specific Sequence to Sequence, as a novel pre-training alternative to
MASS for NMT involving Japanese as the source or target language. JASS is joint
BMASS (Bunsetsu MASS) and BRSS (Bunsetsu Reordering Sequence to Sequence)
pre-training which focuses on Japanese linguistic units called bunsetsus. In
our experiments on ASPEC Japanese--English and News Commentary
Japanese--Russian translation we show that JASS can give results that are
competitive with if not better than those given by MASS. Furthermore, we show
for the first time that joint MASS and JASS pre-training gives results that
significantly surpass the individual methods indicating their complementary
nature. We will release our code, pre-trained models and bunsetsu annotated
data as resources for researchers to use in their own NLP tasks.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)は最先端の翻訳品質のために大きな並列コーパスを必要とする。
低リソースNMTは通常、事前学習のために大きな単言語または並列コーパスを利用する転送学習によって対処される。
MASS(MAsked Sequence to Sequence)のような単言語による事前学習アプローチは、小さな並列コーパスを持つ言語に対するNTT品質向上に極めて有効である。
しかし、いくつかの自然言語処理(NLP)タスクで有用であることが知られている構文解析器を用いて得られる言語情報を考慮していない。
そこで本研究では,日本語を対象言語とするNMTのためのMASSの新たな事前学習として,日本語固有のシーケンスであるJASSを提案する。
JASSはBMASS(Bunsetsu MASS)とBRSS(Bunsetsu Reordering Sequence to Sequence)の合同で、文節と呼ばれる日本語言語単位に焦点を当てている。
ASPEC 日本語-英語・ニュース解説日本語-ロシア語翻訳実験の結果,MASS が与える結果と競合する結果が得られることが示された。
さらに,jassプリトレーニングとジョイントマスが相補的性質を示す個々の方法を大幅に上回る結果を与えることを示す。
我々は、研究者が自身のNLPタスクで使用するリソースとして、コード、事前訓練されたモデル、および文節アノテーション付きデータを公開します。
関連論文リスト
- PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for
Translation with Semi-Supervised Pseudo-Parallel Document Generation [5.004814662623874]
本稿では,多言語事前学習のための高品質な擬似並列データを生成する,新しい半教師付きSPDGを提案する。
実験の結果, PEACH はmT5 と mBART を様々な翻訳タスクで訓練する上で, 既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T18:19:26Z) - $\varepsilon$ K\'U <MASK>: Integrating Yor\`ub\'a cultural greetings
into machine translation [14.469047518226708]
本稿では,Yorub'a の挨拶を含む Yorub'a 翻訳データセットである IkiniYorub'a について紹介する。
GoogleやNLLBなどの多言語NMTシステムは、Yorub'aの挨拶を正確に英語に翻訳するのに苦労している。
さらに,既存のNMTモデルをIkiniYorub'aのトレーニング分割に微調整することで,Yorub'a- Englishモデルを訓練した。
論文 参考訳(メタデータ) (2023-03-31T11:16:20Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Understanding and Improving Sequence-to-Sequence Pretraining for Neural
Machine Translation [48.50842995206353]
本研究は,Seq2Seqプレトレーニングと従来のエンコーダによるNMTの事前トレーニングとの主な違いである,共同事前学習デコーダの影響について検討する。
我々は、ドメインと目的の相違を緩和するために、ドメイン内の事前訓練と入力適応という、シンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2022-03-16T07:36:28Z) - Linguistically-driven Multi-task Pre-training for Low-resource Neural
Machine Translation [31.225252462128626]
本稿では,日本語を母語とする言語対に対する日本語固有のシーケンス to sequence (JASS) と,英語を含む言語対に対する英語固有のシーケンス to sequence (ENSS) を提案する。
JASSは文節(ぶんせつ)として知られる日本語単位のマスキングとリオーダーに重点を置いており、ENSSは句構造マスキングとリオーダータスクに基づいて提案されている。
論文 参考訳(メタデータ) (2022-01-20T09:10:08Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。