Fugu-MT 論文翻訳(概要): Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration

論文の概要: Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration

arxiv url: http://arxiv.org/abs/2101.05162v1
Date: Wed, 13 Jan 2021 15:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-30 07:59:35.047294
Title: Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration
Title（参考訳）: ウズベクキキリル-ラチンキリル機械転写
Authors: B. Mansurov and A. Mansurov
Abstract要約: 我々は,キリル文字からラテン文字へのウズベク語辞書語の翻訳にデータ駆動的アプローチを導入し,その逆も導入する。ソーススクリプトの単語の文字をターゲットスクリプトの対応する単語のサブストリングで整列し、これらのアライメントを学ぶ決定ツリー分類器を訓練します。私たちのCyrillic to Latinモデルは0.9992の文字レベルのマイクロ平均F1スコアを達成し、ラテンからCyrillicモデルは0.9959のスコアを達成します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we introduce a data-driven approach to transliterating Uzbek dictionary words from the Cyrillic script into the Latin script, and vice versa. We heuristically align characters of words in the source script with sub-strings of the corresponding words in the target script and train a decision tree classifier that learns these alignments. On the test set, our Cyrillic to Latin model achieves a character level micro-averaged F1 score of 0.9992, and our Latin to Cyrillic model achieves the score of 0.9959. Our contribution is a novel method of producing machine transliterated texts for the low-resource Uzbek language.
Abstract（参考訳）: 本稿では,キリル文字からラテン文字へのウズベク語辞書語翻訳のためのデータ駆動型アプローチを提案する。我々は、ソーススクリプト内の単語の文字と、ターゲットスクリプト内の対応する単語のサブストリングをヒューリスティックにアライメントし、これらのアライメントを学習する決定木分類器を訓練する。テストセットでは、キリルからラテンへのモデルは文字レベルのマイクロ平均f1スコア 0.9992、ラテンからキリルへのモデルは 0.9959 のスコアを達成する。本研究は,低リソースのウズベク語のための機械翻訳テキストを生成する新しい手法である。

関連論文リスト

Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration [70.84108518476744]
我々は,スクリプトが多言語音声モデルのアクティベーション空間に線形に符号化されていることを示し,推論時にアクティベーションを変更することで,出力スクリプトを直接制御できることを示した。本稿では,Whisperの全モデルサイズにまたがる競合性能を観測し,音声認識出力のスクリプトに対するポストホック制御を実現する手法を提案する。
論文参考訳（メタデータ） (2026-01-06T10:45:04Z)
Improving Informally Romanized Language Identification [49.404145019682666]
ローマ化は、ヒンディー語やウルドゥー語など、文字の難易度に基づいて、通常容易に区別できる言語を表現している。我々は、トレーニングセットを合成する手法を改善することにより、ロマライズされたテキストの言語識別(LID)精度を向上させる。本研究では,Bhasha-Abhijnaanam 評価セットにおける20のIndic言語からのロマン化テキストに対して,最先端の LID 性能を示す。
論文参考訳（メタデータ） (2025-04-30T11:36:28Z)
Prompting with Phonemes: Enhancing LLM Multilinguality for non-Latin Script Languages [37.49196966857134]
そこで本研究では,音声の書き起こしを補完信号として活用し,スクリプト不変表現を誘導する手法を提案する。本研究は,非ラテン系言語とラテン系言語の両方で音声信号の統合により性能が向上することを示す。
論文参考訳（メタデータ） (2024-11-04T18:59:51Z)
Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文参考訳（メタデータ） (2024-08-05T07:58:58Z)
Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文参考訳（メタデータ） (2024-07-02T14:51:20Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Multilingual Lexical Simplification via Paraphrase Generation [19.275642346073557]
パラフレーズ生成による新しい多言語LS法を提案する。パラフレーズ処理は多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。提案手法は,英語,スペイン語,ポルトガル語で,BERT法とゼロショットGPT3法を大きく上回る。
論文参考訳（メタデータ） (2023-07-28T03:47:44Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Sicilian Translator: A Recipe for Low-Resource NMT [0.0]
17,000対のシチリア語翻訳文で、アルバ・シキュラはシチリア語のための最初のニューラル・マシン・トランスレータを開発した。降下パラメータの高い小型トランスフォーマーモデルを訓練し,20代前半にBLEUスコアを達成した。
論文参考訳（メタデータ） (2021-10-05T11:04:13Z)
Character Entropy in Modern and Historical Texts: Comparison Metrics for an Undeciphered Manuscript [0.4061135251278187]
本稿では,Voynich写本の多言語比較と解析のための3つのコーパスの作成について概説する。ヴォイニッチのテキストのコーパスは、カリアー語、頭文字、転写システム、ウィキペディアから編纂された294の言語サンプルのコーパス、8つの言語で書かれた18の歴史的テキストのコーパスである。
論文参考訳（メタデータ） (2020-10-28T01:53:59Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文参考訳（メタデータ） (2020-05-07T21:36:59Z)
Phonetic and Visual Priors for Decipherment of Informal Romanization [37.77170643560608]
観測されたロマライズされたテキストからオリジナルの非ラテン文字を解読するためのノイズチャネルWFSTカスケードモデルを提案する。私たちは、エジプトのアラビア語とロシア語という2つの言語のロマン化データに基づいて、モデルを直接訓練します。文字マッピングにおける音声と視覚の先行性による帰納的バイアスを加えることで、両方の言語におけるモデルの性能が大幅に向上することが実証された。
論文参考訳（メタデータ） (2020-05-05T21:57:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。