論文の概要: Developing neural machine translation models for Hungarian-English
- arxiv url: http://arxiv.org/abs/2111.04099v1
- Date: Sun, 7 Nov 2021 14:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 05:16:39.432848
- Title: Developing neural machine translation models for Hungarian-English
- Title(参考訳): ハンガリー英語用ニューラルマシン翻訳モデルの開発
- Authors: Attila Nagy
- Abstract要約: 私は、Hunglish2コーパスを使用して、英語とハンガリー語とハンガリー英語のニューラルマシン翻訳タスクのモデルをトレーニングします。
ハンガリー語で最良のモデルはBLEUスコア33.9、英語で最高のモデルはBLEUスコア28.6である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I train models for the task of neural machine translation for
English-Hungarian and Hungarian-English, using the Hunglish2 corpus. The main
contribution of this work is evaluating different data augmentation methods
during the training of NMT models. I propose 5 different augmentation methods
that are structure-aware, meaning that instead of randomly selecting words for
blanking or replacement, the dependency tree of sentences is used as a basis
for augmentation. I start my thesis with a detailed literature review on neural
networks, sequential modeling, neural machine translation, dependency parsing
and data augmentation. After a detailed exploratory data analysis and
preprocessing of the Hunglish2 corpus, I perform experiments with the proposed
data augmentation techniques. The best model for Hungarian-English achieves a
BLEU score of 33.9, while the best model for English-Hungarian achieves a BLEU
score of 28.6.
- Abstract(参考訳): 私は、Hunglish2コーパスを使用して、英語とハンガリー語とハンガリー英語のニューラルマシン翻訳タスクのモデルをトレーニングします。
この研究の主な貢献は、NMTモデルのトレーニング中に異なるデータ拡張方法を評価することである。
そこで本稿では,単語の空白や置換をランダムに選択する代わりに,文の係り受け木を拡張の基盤として用いた構造認識手法を5種類提案する。
私はまず、ニューラルネットワーク、シーケンシャルモデリング、ニューラルマシン翻訳、依存性解析、データ拡張に関する詳細な文献レビューから始めます。
hunglish2コーパスの詳細な探索データ解析と前処理を行った後,提案するデータ拡張手法を用いて実験を行った。
ハンガリー語で最良のモデルはBLEUスコア33.9、英語で最高のモデルはBLEUスコア28.6である。
関連論文リスト
- Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Syntax-based data augmentation for Hungarian-English machine translation [0.0]
我々は、Hunglish2コーパスを使用して、ハンガリー語と英語のハンガリー語に対するトランスフォーマーベースのニューラルマシン翻訳モデルを訓練する。
我々の最良のモデルは、ハンガリー語で40.0点、英語とハンガリー語で33.4点のBLEUスコアを得る。
論文 参考訳(メタデータ) (2022-01-18T11:13:56Z) - A Preordered RNN Layer Boosts Neural Machine Translation in Low Resource
Settings [4.462172357341907]
我々は、データ不足を軽減するために、情報を並べ替えることで、注意に基づくニューラルネットワークを強化することを提案する。
この増補により、英語からペルシア語、ペルシア語への翻訳の質が最大6%向上する。
論文 参考訳(メタデータ) (2021-12-28T01:36:22Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。