Fugu-MT 論文翻訳(概要): Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised Neural Machine Translation

論文の概要: Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised Neural Machine Translation

arxiv url: http://arxiv.org/abs/2004.02071v1
Date: Sun, 5 Apr 2020 02:14:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 12:34:11.130837
Title: Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised Neural Machine Translation
Title（参考訳）: 低資源半教師付きニューラルマシン翻訳のためのバイリンガル辞書の統合
Authors: Sreyashi Nag and Mihir Kale and Varun Lakshminarasimhan and Swapnil Singhavi
Abstract要約: 我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
参考スコア（独自算出の注目度）: 5.958653653305609
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore ways of incorporating bilingual dictionaries to enable semi-supervised neural machine translation. Conventional back-translation methods have shown success in leveraging target side monolingual data. However, since the quality of back-translation models is tied to the size of the available parallel corpora, this could adversely impact the synthetically generated sentences in a low resource setting. We propose a simple data augmentation technique to address both this shortcoming. We incorporate widely available bilingual dictionaries that yield word-by-word translations to generate synthetic sentences. This automatically expands the vocabulary of the model while maintaining high quality content. Our method shows an appreciable improvement in performance over strong baselines.
Abstract（参考訳）: バイリンガル辞書を組み込んで半教師ありニューラルマシン翻訳を実現する方法について検討する。従来のバックトランスレーション手法は、ターゲット側モノリンガルデータを活用することに成功している。しかし, 逆翻訳モデルの品質は利用可能な並列コーパスのサイズに関係しているため, 低資源環境下で合成文に悪影響を及ぼす可能性がある。この欠点に対処するための簡単なデータ拡張手法を提案する。単語を翻訳して合成文を生成する多言語辞書を多用する。これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。本手法は,強力なベースラインに対する性能向上を示す。

関連論文リスト

A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文参考訳（メタデータ） (2024-09-04T13:49:45Z)
Using Machine Translation to Augment Multilingual Classification [0.0]
複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。
論文参考訳（メタデータ） (2024-05-09T00:31:59Z)
Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-09T04:52:31Z)
Training Effective Neural Sentence Encoders from Automatically Mined Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文参考訳（メタデータ） (2022-07-26T09:08:56Z)
No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文参考訳（メタデータ） (2022-07-11T07:33:36Z)
DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文参考訳（メタデータ） (2021-11-14T17:28:09Z)
Improving Multilingual Translation by Representation and Gradient Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文参考訳（メタデータ） (2021-09-10T10:52:21Z)
Self-Training Sampling with Monolingual Data Uncertainty for Neural Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2021-06-02T05:01:36Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文参考訳（メタデータ） (2020-06-27T21:51:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。