論文の概要: MATra: A Multilingual Attentive Transliteration System for Indian
Scripts
- arxiv url: http://arxiv.org/abs/2208.10801v1
- Date: Tue, 23 Aug 2022 08:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:01:06.716413
- Title: MATra: A Multilingual Attentive Transliteration System for Indian
Scripts
- Title(参考訳): MATra:インドのスクリプトのための多言語注意翻訳システム
- Authors: Yash Raj and Bhavesh Laddagiri
- Abstract要約: 本稿では,以下の5言語のうちの任意のペア間で音訳を行うことができるモデルを示す。
このモデルは最先端の言語(5つの言語の中で全てのペア)を破り、トップ1の精度スコアは80.7%に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transliteration is a task in the domain of NLP where the output word is a
similar-sounding word written using the letters of any foreign language. Today
this system has been developed for several language pairs that involve English
as either the source or target word and deployed in several places like Google
Translate and chatbots. However, there is very little research done in the
field of Indic languages transliterated to other Indic languages. This paper
demonstrates a multilingual model based on transformers (with some
modifications) that can give noticeably higher performance and accuracy than
all existing models in this domain and get much better results than
state-of-the-art models. This paper shows a model that can perform
transliteration between any pair among the following five languages - English,
Hindi, Bengali, Kannada and Tamil. It is applicable in scenarios where language
is a barrier to communication in any written task. The model beats the
state-of-the-art (for all pairs among the five mentioned languages - English,
Hindi, Bengali, Kannada, and Tamil) and achieves a top-1 accuracy score of
80.7%, about 29.5% higher than the best current results. Furthermore, the model
achieves 93.5% in terms of Phonetic Accuracy (transliteration is primarily a
phonetic/sound-based task).
- Abstract(参考訳): 音訳(英: transliteration)とは、NLPのドメインにおいて、出力語は、外国語の文字を使って書かれた類似の単語である。
今日、このシステムは、英語をソースまたはターゲット語として含む複数の言語ペア向けに開発され、Google Translateやチャットボットなどのいくつかの場所にデプロイされている。
しかし、他のindic言語に翻訳されたindic言語の分野での研究はほとんど行われていない。
本稿では、トランスフォーマーに基づく多言語モデル(いくつかの修正を加えた)を示し、この領域の既存のモデルよりも明らかに高い性能と精度を提供し、最先端モデルよりも優れた結果が得られることを示す。
本稿では, 英語, ヒンディー語, ベンガル語, カンナダ語, タミル語という5つの言語のうち, いずれの対でも音訳ができるモデルを示す。
言語が書かれたタスクにおけるコミュニケーションの障壁となるシナリオに適用できる。
このモデルは最新の5つの言語(英語、ヒンディー語、ベンガル語、カンナダ語、タミル語)を上回り、現在最高の結果よりも約29.5%高い80.7%のtop-1精度スコアを達成した。
さらに、このモデルは音韻精度の93.5%を達成している(翻訳は主に音韻/音声に基づくタスクである)。
関連論文リスト
- Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - HinFlair: pre-trained contextual string embeddings for pos tagging and
text classification in the Hindi language [0.0]
HinFlairは、巨大な単言語Hindiコーパスで事前訓練された言語表現モデル(コンテキスト文字列埋め込み)である。
結果は、HinFlairが、テキスト分類やposタグ付けといった下流タスクのために、既存の最先端の公開トレーニング済みの埋め込みよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T09:23:35Z) - Indic-Transformers: An Analysis of Transformer Language Models for
Indian Languages [0.8155575318208631]
Transformerアーキテクチャに基づく言語モデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。
しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ、報告される。
一方、インドの言語はそのようなベンチマークでは表現されていない。
論文 参考訳(メタデータ) (2020-11-04T14:43:43Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。