論文の概要: A machine transliteration tool between Uzbek alphabets
- arxiv url: http://arxiv.org/abs/2205.09578v1
- Date: Thu, 19 May 2022 14:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 22:26:49.072996
- Title: A machine transliteration tool between Uzbek alphabets
- Title(参考訳): ウズベク語アルファベット間の機械音訳ツール
- Authors: Ulugbek Salaev, Elmurod Kuriyozov, Carlos G\'omez-Rodr\'iguez
- Abstract要約: 本稿では,旧キリル文字と現在公用語であるラテン語と,新たに発表された新ラテン文字の機械翻訳ツールを提案する。
このツールはルールベースのアプローチと微調整のアプローチを組み合わせて作成されている。
我々の知る限り、これはウズベク語で新しく発表されたラテン文字をサポートする最初の機械翻訳ツールである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine transliteration, as defined in this paper, is a process of
automatically transforming written script of words from a source alphabet into
words of another target alphabet within the same language, while preserving
their meaning, as well as pronunciation. The main goal of this paper is to
present a machine transliteration tool between three common scripts used in
low-resource Uzbek language: the old Cyrillic, currently official Latin, and
newly announced New Latin alphabets. The tool has been created using a
combination of rule-based and fine-tuning approaches. The created tool is
available as an open-source Python package, as well as a web-based application
including a public API. To our knowledge, this is the first machine
transliteration tool that supports the newly announced Latin alphabet of the
Uzbek language.
- Abstract(参考訳): 本論文で定義されている機械翻訳は,文字の文字を同じ言語内で他のターゲットアルファベットの単語に自動変換するプロセスであり,その意味や発音を保存している。
本研究の目的は,低資源のウズベク語で使用される3つの共通文字(旧キリル文字,現在公式ラテン文字,新たに発表された新ラテン文字)間の機械翻訳ツールを提供することである。
このツールはルールベースと微調整のアプローチを組み合わせて作られている。
作成したツールは、オープンソースのPythonパッケージと、パブリックAPIを含むWebベースのアプリケーションとして利用できる。
我々の知る限り、これはウズベク語で新しく発表されたラテン文字をサポートする最初の機械翻訳ツールである。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Prak: An automatic phonetic alignment tool for Czech [0.0]
無料のオープンソースツールはチェコ語のテキストから電話シーケンスを生成し、音声で時間調整する。
チェコ語発音生成器は、言語の論理をキャプチャする単純なルールベースのブロックで構成されている。
論文 参考訳(メタデータ) (2023-04-17T16:51:24Z) - UzbekTagger: The rule-based POS tagger for Uzbek language [0.0]
本研究では,低リソースなウズベク語のための音声アノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するためのピボットとしても使用できる。
論文 参考訳(メタデータ) (2023-01-30T07:40:45Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration [0.0]
我々は,キリル文字からラテン文字へのウズベク語辞書語の翻訳にデータ駆動的アプローチを導入し,その逆も導入する。
ソーススクリプトの単語の文字をターゲットスクリプトの対応する単語のサブストリングで整列し、これらのアライメントを学ぶ決定ツリー分類器を訓練します。
私たちのCyrillic to Latinモデルは0.9992の文字レベルのマイクロ平均F1スコアを達成し、ラテンからCyrillicモデルは0.9959のスコアを達成します。
論文 参考訳(メタデータ) (2021-01-13T15:59:43Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - A Clustering Framework for Lexical Normalization of Roman Urdu [10.746384310607157]
ウルドゥー語(ウルドゥー語: Urdu)は、ローマ文字で書かれたウルドゥー語の非公式な形式である。
標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。
ローマ・ウルドゥ・コーパスの語彙正規化のための特徴に基づくクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。