論文の概要: Mergen: The First Manchu-Korean Machine Translation Model Trained on
Augmented Data
- arxiv url: http://arxiv.org/abs/2311.17492v2
- Date: Fri, 12 Jan 2024 14:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 23:53:03.814787
- Title: Mergen: The First Manchu-Korean Machine Translation Model Trained on
Augmented Data
- Title(参考訳): Mergen: 拡張データを用いた最初の満州・韓国機械翻訳モデル
- Authors: Jean Seo, Sungjoo Byun, Minha Kang, Sangah Lee
- Abstract要約: 本稿では,満州・朝鮮語機械翻訳モデルの最初の試みであるMergenを紹介する。
満州・韓国の並列データセットが不足しているため、GloVe埋め込みで案内された単語置換を用いてデータを拡張しています。
実験により有望な結果が得られ、満州・朝鮮語翻訳の大幅な向上が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Manchu language, with its roots in the historical Manchurian region of
Northeast China, is now facing a critical threat of extinction, as there are
very few speakers left. In our efforts to safeguard the Manchu language, we
introduce Mergen, the first-ever attempt at a Manchu-Korean Machine Translation
(MT) model. To develop this model, we utilize valuable resources such as the
Manwen Laodang(a historical book) and a Manchu-Korean dictionary. Due to the
scarcity of a Manchu-Korean parallel dataset, we expand our data by employing
word replacement guided by GloVe embeddings, trained on both monolingual and
parallel texts. Our approach is built around an encoder-decoder neural machine
translation model, incorporating a bi-directional Gated Recurrent Unit (GRU)
layer. The experiments have yielded promising results, showcasing a significant
enhancement in Manchu-Korean translation, with a remarkable 20-30 point
increase in the BLEU score.
- Abstract(参考訳): 中国北東部の歴史的満州地方に起源を持つ満州語は現在、話者がほとんどいないため、絶滅の危機に直面している。
満州語を保護すべく,満州・朝鮮語機械翻訳(MT)モデルの最初の試みであるMergenを紹介した。
このモデルを開発するには,マンウェン・ラオダン(歴史書)や満州・朝鮮語辞書などの貴重な資料を利用する。
満州・韓国の並列データセットが不足しているため、GloVe埋め込みでガイドされた単語置換を用いて、モノリンガルテキストとパラレルテキストの両方でトレーニングすることで、データを拡張しています。
本手法は,双方向ゲートリカレントユニット(gru)層を組み込んだエンコーダ・デコーダニューラルマシン翻訳モデルを中心に構築した。
実験は有望な結果をもたらし、満州・朝鮮語訳が大幅に向上し、ブレウスコアが20-30ポイント上昇した。
関連論文リスト
- A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Learning and Analyzing Generation Order for Undirected Sequence Models [86.10875837475783]
我々は、強化学習を通して、事前訓練された非直接翻訳モデルの生成順序を学習する政策を訓練する。
学習順序による翻訳は,マンシモフらの学習順序によって左から右へ復号された出力や復号された出力よりも高いBLEUスコアが得られることを示す。
我々の発見は、非方向性生成モデルのメカニズムに関するさらなる洞察を与え、この方向のさらなる研究を奨励する可能性がある。
論文 参考訳(メタデータ) (2021-12-16T18:29:07Z) - Improvement in Machine Translation with Generative Adversarial Networks [0.9612136532344103]
我々は、テキスト生成のモデルであるRelGANと、逆機械翻訳モデルであるNMT-GANからインスピレーションを得て、不器用な非流用な英語文から流用なものへの変換を学ぶモデルを実装した。
パラメータ $lambda$ を使って入力文からの逸脱量を制御します。
論文 参考訳(メタデータ) (2021-11-30T06:51:13Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Towards Computational Linguistics in Minangkabau Language: Studies on
Sentiment Analysis and Machine Translation [5.381004207943597]
我々は、感情分析と、TwitterとWikipediaから収集、構築された機械翻訳の2つのMinangkabauコーパスをリリースする。
我々は,従来の機械学習とLSTMやTransformerといったシーケンス・ツー・シーケンスモデルを用いて,ミナンカバウ語で最初の計算言語学を行う。
論文 参考訳(メタデータ) (2020-09-19T22:13:27Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。