論文の概要: Towards Better Chinese-centric Neural Machine Translation for
Low-resource Languages
- arxiv url: http://arxiv.org/abs/2204.04344v1
- Date: Sat, 9 Apr 2022 01:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 15:55:27.815035
- Title: Towards Better Chinese-centric Neural Machine Translation for
Low-resource Languages
- Title(参考訳): 低リソース言語のための中国語中心のニューラルマシン翻訳
- Authors: Bin Li, Yixuan Weng, Fei Xia, Hanjun Deng
- Abstract要約: ニューラルマシン翻訳(NMT)システムの構築は、特に低リソース環境において急激なトレンドとなっている。
最近の研究は、英語を中心とした低リソースのNMTシステムを研究する傾向にあるが、中国語など他の言語を中心とした低リソースのNMTシステムに焦点を当てる研究はほとんどない。
本稿では,モノリンガル単語の埋め込みによるデータ強化,バイリンガルカリキュラム学習,コントラスト的再ランク付けを活用した勝者競争システムを提案する。
- 参考スコア(独自算出の注目度): 12.374365655284342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The last decade has witnessed enormous improvements in science and
technology, stimulating the growing demand for economic and cultural exchanges
in various countries. Building a neural machine translation (NMT) system has
become an urgent trend, especially in the low-resource setting. However, recent
work tends to study NMT systems for low-resource languages centered on English,
while few works focus on low-resource NMT systems centered on other languages
such as Chinese. To achieve this, the low-resource multilingual translation
challenge of the 2021 iFLYTEK AI Developer Competition provides the
Chinese-centric multilingual low-resource NMT tasks, where participants are
required to build NMT systems based on the provided low-resource samples. In
this paper, we present the winner competition system that leverages monolingual
word embeddings data enhancement, bilingual curriculum learning, and
contrastive re-ranking. In addition, a new Incomplete-Trust (In-trust) loss
function is proposed to replace the traditional cross-entropy loss when
training. The experimental results demonstrate that the implementation of these
ideas leads better performance than other state-of-the-art methods. All the
experimental codes are released at:
https://github.com/WENGSYX/Low-resource-text-translation.
- Abstract(参考訳): 過去10年間、科学と技術の大幅な改善が見られ、各国の経済・文化交流の需要が増大している。
ニューラルネットワーク翻訳(NMT)システムの構築は,特に低リソース環境において急激なトレンドとなっている。
しかし、最近の研究は、英語を中心とした低リソース言語のためのNMTシステムを研究する傾向があり、中国語など他の言語を中心とした低リソースNMTシステムに焦点を当てる研究はほとんどない。
これを実現するために、2021 iFLYTEK AI Developer Competitionの低リソース多言語翻訳課題は、提供された低リソースサンプルに基づいてNMTシステムを構築するために、中国中心の多言語低リソースNTTタスクを提供する。
本稿では,データエンハンスメント,バイリンガルカリキュラム学習,コントラスト的再ランキングといった単言語単語の組込みを活用した優勝コンペティションシステムを提案する。
さらに、トレーニング中の従来のクロスエントロピー損失を置き換えるために、新しい不完全信頼損失関数が提案されている。
実験結果は,これらの概念の実装が,他の最先端手法よりも優れた性能をもたらすことを示した。
実験コードはすべて、https://github.com/WENGSYX/Low-resource-text-translationでリリースされている。
関連論文リスト
- Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study [1.6819960041696331]
本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。
我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。
ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
論文 参考訳(メタデータ) (2024-04-12T06:16:26Z) - Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Replicable Benchmarking of Neural Machine Translation (NMT) on
Low-Resource Local Languages in Indonesia [4.634142034755327]
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムの訓練を包括的に分析する。
我々の研究は、限られた計算資源とテキストデータにもかかわらず、いくつかのNMTシステムが競合性能を達成することを実証している。
論文 参考訳(メタデータ) (2023-11-02T05:27:48Z) - Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文 参考訳(メタデータ) (2021-03-14T22:12:14Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。