論文の概要: Data Augmentation and Terminology Integration for Domain-Specific
Sinhala-English-Tamil Statistical Machine Translation
- arxiv url: http://arxiv.org/abs/2011.02821v3
- Date: Wed, 3 Feb 2021 06:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:57:52.084656
- Title: Data Augmentation and Terminology Integration for Domain-Specific
Sinhala-English-Tamil Statistical Machine Translation
- Title(参考訳): ドメイン特化シンハラ-英語-タミル統計機械翻訳のためのデータ拡張と用語統合
- Authors: Aloka Fernando, Surangika Ranathunga, Gihan Dias
- Abstract要約: Out of vocabulary (OOV) は低リソース言語における機械翻訳(MT)の文脈における問題である。
本稿では、ケースマーカーに基づいてバイリンガル語彙を拡大するデータ拡張技術に焦点を当てる。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out of vocabulary (OOV) is a problem in the context of Machine Translation
(MT) in low-resourced languages. When source and/or target languages are
morphologically rich, it becomes even worse. Bilingual list integration is an
approach to address the OOV problem. This allows more words to be translated
than are in the training data. However, since bilingual lists contain words in
the base form, it will not translate inflected forms for morphologically rich
languages such as Sinhala and Tamil. This paper focuses on data augmentation
techniques where bilingual lexicon terms are expanded based on case-markers
with the objective of generating new words, to be used in Statistical machine
Translation (SMT). This data augmentation technique for dictionary terms shows
improved BLEU scores for Sinhala-English SMT.
- Abstract(参考訳): Out of vocabulary (OOV) は低リソース言語における機械翻訳(MT)の文脈における問題である。
ソース言語やターゲット言語が形式的に豊かである場合、さらに悪化する。
双方向リストの統合はOOV問題に対処するためのアプローチである。
これにより、トレーニングデータよりも多くの単語を翻訳することができる。
しかし、バイリンガルリストは基本形に単語を含むため、シンハラ語やタミル語のような形態学的に豊かな言語に対する屈折形は翻訳しない。
本稿では,統計的機械翻訳(SMT)で使用される新しい単語を生成するためのケースマーカーに基づいて,バイリンガル語彙を拡大するデータ拡張技術に焦点を当てた。
この辞書語用データ拡張手法は、シンハラ英語SMTにおけるBLEUスコアの改善を示す。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation [14.826948179996695]
サブワードトークン化はニューラル機械翻訳(NMT)モデルにおける語彙構築の一般的な方法である。
隠れ状態次元の異なる様々なスケールの文脈情報を学習するマルチスケールコンテキスト化(MSC)手法を提案する。
実験により、MSCはサブワードベースおよび他のバイトベースの手法を多言語およびドメイン外のシナリオで大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-05-29T17:19:04Z) - Cross-Lingual Transfer from Related Languages: Treating Low-Resource
Maltese as Multilingual Code-Switching [9.435669487585917]
我々は、アラビア語、イタリア語、英語からかなりの影響を受け、特にラテン語の文字で書かれたマルタ語に焦点を当てている。
単語レベルの語源を付加した新しいデータセットを提案する。
単語の語源に基づく条件翻訳は,非選択的なパイプラインで処理されたマルタ語やマルタ語による微調整よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-30T11:04:36Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource
Languages [1.8787713898828164]
本稿では,辞書の品質,学習データセットのサイズ,言語家族などの影響を詳細に分析する。
複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。
論文 参考訳(メタデータ) (2022-06-09T12:03:29Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。