論文の概要: Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration
- arxiv url: http://arxiv.org/abs/2101.05162v1
- Date: Wed, 13 Jan 2021 15:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 07:59:35.047294
- Title: Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration
- Title(参考訳): ウズベクキキリル-ラチンキリル機械転写
- Authors: B. Mansurov and A. Mansurov
- Abstract要約: 我々は,キリル文字からラテン文字へのウズベク語辞書語の翻訳にデータ駆動的アプローチを導入し,その逆も導入する。
ソーススクリプトの単語の文字をターゲットスクリプトの対応する単語のサブストリングで整列し、これらのアライメントを学ぶ決定ツリー分類器を訓練します。
私たちのCyrillic to Latinモデルは0.9992の文字レベルのマイクロ平均F1スコアを達成し、ラテンからCyrillicモデルは0.9959のスコアを達成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce a data-driven approach to transliterating Uzbek
dictionary words from the Cyrillic script into the Latin script, and vice
versa. We heuristically align characters of words in the source script with
sub-strings of the corresponding words in the target script and train a
decision tree classifier that learns these alignments. On the test set, our
Cyrillic to Latin model achieves a character level micro-averaged F1 score of
0.9992, and our Latin to Cyrillic model achieves the score of 0.9959. Our
contribution is a novel method of producing machine transliterated texts for
the low-resource Uzbek language.
- Abstract(参考訳): 本稿では,キリル文字からラテン文字へのウズベク語辞書語翻訳のためのデータ駆動型アプローチを提案する。
我々は、ソーススクリプト内の単語の文字と、ターゲットスクリプト内の対応する単語のサブストリングをヒューリスティックにアライメントし、これらのアライメントを学習する決定木分類器を訓練する。
テストセットでは、キリルからラテンへのモデルは文字レベルのマイクロ平均f1スコア 0.9992、ラテンからキリルへのモデルは 0.9959 のスコアを達成する。
本研究は,低リソースのウズベク語のための機械翻訳テキストを生成する新しい手法である。
関連論文リスト
- Multilingual Lexical Simplification via Paraphrase Generation [19.275642346073557]
パラフレーズ生成による新しい多言語LS法を提案する。
パラフレーズ処理は多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。
提案手法は,英語,スペイン語,ポルトガル語で,BERT法とゼロショットGPT3法を大きく上回る。
論文 参考訳(メタデータ) (2023-07-28T03:47:44Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Sicilian Translator: A Recipe for Low-Resource NMT [0.0]
17,000対のシチリア語翻訳文で、アルバ・シキュラはシチリア語のための最初のニューラル・マシン・トランスレータを開発した。
降下パラメータの高い小型トランスフォーマーモデルを訓練し,20代前半にBLEUスコアを達成した。
論文 参考訳(メタデータ) (2021-10-05T11:04:13Z) - Character Entropy in Modern and Historical Texts: Comparison Metrics for
an Undeciphered Manuscript [0.4061135251278187]
本稿では,Voynich写本の多言語比較と解析のための3つのコーパスの作成について概説する。
ヴォイニッチのテキストのコーパスは、カリアー語、頭文字、転写システム、ウィキペディアから編纂された294の言語サンプルのコーパス、8つの言語で書かれた18の歴史的テキストのコーパスである。
論文 参考訳(メタデータ) (2020-10-28T01:53:59Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Latin BERT: A Contextual Language Model for Classical Philology [7.513100214864645]
我々はラテン言語のための文脈言語モデルである Latin BERT を提示する。
古典期から21世紀にかけての様々な資料から642.7万語で訓練された。
論文 参考訳(メタデータ) (2020-09-21T17:47:44Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - Phonetic and Visual Priors for Decipherment of Informal Romanization [37.77170643560608]
観測されたロマライズされたテキストからオリジナルの非ラテン文字を解読するためのノイズチャネルWFSTカスケードモデルを提案する。
私たちは、エジプトのアラビア語とロシア語という2つの言語のロマン化データに基づいて、モデルを直接訓練します。
文字マッピングにおける音声と視覚の先行性による帰納的バイアスを加えることで、両方の言語におけるモデルの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2020-05-05T21:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。