論文の概要: Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding
- arxiv url: http://arxiv.org/abs/2305.12371v1
- Date: Sun, 21 May 2023 06:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:04:53.323993
- Title: Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding
- Title(参考訳): 共通符号化を用いたテキストを同一音声・口語空間に投影する機械翻訳
- Authors: Amit Kumar, Shantipriya Parida, Ajay Pratap and Anil Kumar Singh
- Abstract要約: 本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
- 参考スコア(独自算出の注目度): 3.0422770070015295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of subword embedding has proved to be a major innovation in Neural
Machine Translation (NMT). It helps NMT to learn better context vectors for Low
Resource Languages (LRLs) so as to predict the target words by better modelling
the morphologies of the two languages and also the morphosyntax transfer. Even
so, their performance for translation in Indian language to Indian language
scenario is still not as good as for resource-rich languages. One reason for
this is the relative morphological richness of Indian languages, while another
is that most of them fall into the extremely low resource or zero-shot
categories. Since most major Indian languages use Indic or Brahmi origin
scripts, the text written in them is highly phonetic in nature and phonetically
similar in terms of abstract letters and their arrangements. We use these
characteristics of Indian languages and their scripts to propose an approach
based on common multilingual Latin-based encodings (WX notation) that take
advantage of language similarity while addressing the morphological complexity
issue in NMT. These multilingual Latin-based encodings in NMT, together with
Byte Pair Embedding (BPE) allow us to better exploit their phonetic and
orthographic as well as lexical similarities to improve the translation quality
by projecting different but similar languages on the same orthographic-phonetic
character space. We verify the proposed approach by demonstrating experiments
on similar language pairs (Gujarati-Hindi, Marathi-Hindi, Nepali-Hindi,
Maithili-Hindi, Punjabi-Hindi, and Urdu-Hindi) under low resource conditions.
The proposed approach shows an improvement in a majority of cases, in one case
as much as ~10 BLEU points compared to baseline techniques for similar language
pairs. We also get up to ~1 BLEU points improvement on distant and zero-shot
language pairs.
- Abstract(参考訳): サブワード埋め込みの使用は、Neural Machine Translation(NMT)の大きな革新であることが判明した。
NMTは、低資源言語(LRL)の文脈ベクトルをより良く学習し、2つの言語の形態や形態素変換をより良くモデル化することで、目的語を予測するのに役立つ。
それでも、インドの言語からインド語のシナリオへの翻訳のパフォーマンスは、資源豊富な言語ほど良くない。
この理由の1つは、インドの言語の相対的な形態的豊かさであり、もう1つは、その大部分が非常に低い資源またはゼロショットのカテゴリに該当していることである。
ほとんどの主要なインドの言語はindicまたはbrahmi起源の文字を使っているため、それらで書かれたテキストは自然に非常に音韻的であり、抽象的な文字とその配列の点で音韻的に類似している。
インド語の特徴とそれらのスクリプトを用いて、nmtにおける形態的複雑性問題に対処しつつ、言語類似性を生かした共通多言語ラテン系エンコーディング(wx表記法)に基づくアプローチを提案する。
NMTにおけるこれらの多言語ラテン文字符号化とByte Pair Embedding (BPE)は、それらの音韻的および正書法的類似性をうまく活用し、同じ正書法-音韻的文字空間上に異なるが類似の言語を投影することで翻訳品質を向上させる。
提案手法は,低資源条件下での類似言語対 (Gujarati-Hindi, Marathi-Hindi, Nepali-Hindi, Maithili-Hindi, Punjabi-Hindi, Urdu-Hindi) の実験により検証した。
提案手法は,ほとんどの場合において,類似言語対に対するベースライン手法と比較して,最大10 BLEU点の精度が向上することを示す。
また、遠くとゼロショットの言語ペアで最大1 BLEUポイントの改善も行います。
関連論文リスト
- Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。
いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。
単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文 参考訳(メタデータ) (2024-06-25T19:23:42Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Neural Machine Translation System of Indic Languages -- An Attention
based Approach [0.5139874302398955]
インドでは、ほとんどの言語は先祖の言語であるサンスクリットに由来する。
本稿では,ヒンディー語やグジャラート語などのインド語を効率的に翻訳できるニューラルネットワーク翻訳システム(NMT)を提案する。
論文 参考訳(メタデータ) (2020-02-02T07:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。