論文の概要: Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration
- arxiv url: http://arxiv.org/abs/2101.05162v1
- Date: Wed, 13 Jan 2021 15:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 07:59:35.047294
- Title: Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration
- Title(参考訳): ウズベクキキリル-ラチンキリル機械転写
- Authors: B. Mansurov and A. Mansurov
- Abstract要約: 我々は,キリル文字からラテン文字へのウズベク語辞書語の翻訳にデータ駆動的アプローチを導入し,その逆も導入する。
ソーススクリプトの単語の文字をターゲットスクリプトの対応する単語のサブストリングで整列し、これらのアライメントを学ぶ決定ツリー分類器を訓練します。
私たちのCyrillic to Latinモデルは0.9992の文字レベルのマイクロ平均F1スコアを達成し、ラテンからCyrillicモデルは0.9959のスコアを達成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce a data-driven approach to transliterating Uzbek
dictionary words from the Cyrillic script into the Latin script, and vice
versa. We heuristically align characters of words in the source script with
sub-strings of the corresponding words in the target script and train a
decision tree classifier that learns these alignments. On the test set, our
Cyrillic to Latin model achieves a character level micro-averaged F1 score of
0.9992, and our Latin to Cyrillic model achieves the score of 0.9959. Our
contribution is a novel method of producing machine transliterated texts for
the low-resource Uzbek language.
- Abstract(参考訳): 本稿では,キリル文字からラテン文字へのウズベク語辞書語翻訳のためのデータ駆動型アプローチを提案する。
我々は、ソーススクリプト内の単語の文字と、ターゲットスクリプト内の対応する単語のサブストリングをヒューリスティックにアライメントし、これらのアライメントを学習する決定木分類器を訓練する。
テストセットでは、キリルからラテンへのモデルは文字レベルのマイクロ平均f1スコア 0.9992、ラテンからキリルへのモデルは 0.9959 のスコアを達成する。
本研究は,低リソースのウズベク語のための機械翻訳テキストを生成する新しい手法である。
関連論文リスト
- Prompting with Phonemes: Enhancing LLM Multilinguality for non-Latin Script Languages [37.49196966857134]
そこで本研究では,音声の書き起こしを補完信号として活用し,スクリプト不変表現を誘導する手法を提案する。
本研究は,非ラテン系言語とラテン系言語の両方で音声信号の統合により性能が向上することを示す。
論文 参考訳(メタデータ) (2024-11-04T18:59:51Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Multilingual Lexical Simplification via Paraphrase Generation [19.275642346073557]
パラフレーズ生成による新しい多言語LS法を提案する。
パラフレーズ処理は多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。
提案手法は,英語,スペイン語,ポルトガル語で,BERT法とゼロショットGPT3法を大きく上回る。
論文 参考訳(メタデータ) (2023-07-28T03:47:44Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Sicilian Translator: A Recipe for Low-Resource NMT [0.0]
17,000対のシチリア語翻訳文で、アルバ・シキュラはシチリア語のための最初のニューラル・マシン・トランスレータを開発した。
降下パラメータの高い小型トランスフォーマーモデルを訓練し,20代前半にBLEUスコアを達成した。
論文 参考訳(メタデータ) (2021-10-05T11:04:13Z) - Character Entropy in Modern and Historical Texts: Comparison Metrics for
an Undeciphered Manuscript [0.4061135251278187]
本稿では,Voynich写本の多言語比較と解析のための3つのコーパスの作成について概説する。
ヴォイニッチのテキストのコーパスは、カリアー語、頭文字、転写システム、ウィキペディアから編纂された294の言語サンプルのコーパス、8つの言語で書かれた18の歴史的テキストのコーパスである。
論文 参考訳(メタデータ) (2020-10-28T01:53:59Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - Phonetic and Visual Priors for Decipherment of Informal Romanization [37.77170643560608]
観測されたロマライズされたテキストからオリジナルの非ラテン文字を解読するためのノイズチャネルWFSTカスケードモデルを提案する。
私たちは、エジプトのアラビア語とロシア語という2つの言語のロマン化データに基づいて、モデルを直接訓練します。
文字マッピングにおける音声と視覚の先行性による帰納的バイアスを加えることで、両方の言語におけるモデルの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2020-05-05T21:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。