論文の概要: Context based Roman-Urdu to Urdu Script Transliteration System
- arxiv url: http://arxiv.org/abs/2109.14197v1
- Date: Wed, 29 Sep 2021 05:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:53:49.674965
- Title: Context based Roman-Urdu to Urdu Script Transliteration System
- Title(参考訳): 文脈に基づくロマン・ウルドゥーからウルドゥー文字翻訳システム
- Authors: H Muhammad Shakeel, Rashid Khan, Muhammad Waheed
- Abstract要約: この研究の目的は、ローマ・ウルドゥー文字からウルドゥー文字への文脈ベースの翻訳を改善することである。
このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Now a day computer is necessary for human being and it is very useful in many
fields like search engine, text processing, short messaging services, voice
chatting and text recognition. Since last many years there are many tools and
techniques that have been developed to support the writing of language script.
Most of the Asian languages like Arabic, Urdu, Persian, Chains and Korean are
written in Roman alphabets. Roman alphabets are the most commonly used for
transliteration of languages, which have non-Latin scripts. For writing Urdu
characters as an input, there are many layouts which are already exist. Mostly
Urdu speaker prefer to use Roman-Urdu for different applications, because
mostly user is not familiar with Urdu language keyboard. The objective of this
work is to improve the context base transliteration of Roman-Urdu to Urdu
script. In this paper, we propose an algorithm which effectively solve the
transliteration issues. The algorithm work like, convert the encoding roman
words into the words in the standard Urdu script and match it with the lexicon.
If match found, then display the word in the text editor. The highest frequency
words are displayed if more than one match found in the lexicon. Display the
first encoded and converted instance and set it to the default if there is not
a single instance of the match is found and then adjust the given ambiguous
word to their desire location according to their context. The outcome of this
algorithm proved the efficiency and significance as compare to other models and
algorithms which work for transliteration of Raman-Urdu to Urdu on context.
- Abstract(参考訳): 現在、日々のコンピュータは人間にとって必要であり、検索エンジン、テキスト処理、ショートメッセージングサービス、音声チャット、テキスト認識など多くの分野で非常に有用である。
ここ数年から、言語スクリプトの記述をサポートするために、多くのツールや技術が開発されている。
アラビア語、ウルドゥー語、ペルシア語、チェイン語、韓国語といったアジアの言語のほとんどはローマ字で書かれている。
ローマ字は、非ラテン文字を持つ言語の翻訳に最も一般的に用いられる。
入力としてurdu文字を書くには、すでに存在する多くのレイアウトがある。
urduスピーカーは、ユーザーがurdu言語キーボードに慣れていないため、異なるアプリケーションでroman-urduを使うのを好む。
本研究の目的は、roman-urdu to urduスクリプトの文脈ベースの書き起こしを改善することである。
本稿では,翻訳問題を効果的に解決するアルゴリズムを提案する。
このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。
マッチが見つかったら、テキストエディタにワードを表示します。
一番高い頻度の単語は、レキシコンに複数の一致がある場合に表示される。
最初のエンコードされた変換されたインスタンスを表示し、マッチの単一のインスタンスが見つからない場合はデフォルトに設定し、そのコンテキストに応じて与えられた曖昧な単語を所望の場所に調整する。
このアルゴリズムの結果、文脈上でラマン・ウルドゥをウルドゥー語に翻訳する他のモデルやアルゴリズムと比較して効率と重要性が証明された。
関連論文リスト
- Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - CALText: Contextual Attention Localization for Offline Handwritten Text [1.066048003460524]
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。
我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-06T19:54:21Z) - Co-occurrences using Fasttext embeddings for word similarity tasks in
Urdu [0.0]
本稿では,Urduのコーパスを構築し,複数のソースからデータを抽出・統合する。
fasttext埋め込みとN-Gramsモデルを変更して、構築されたコーパスでトレーニングできるようにします。
これらのトレーニング済み埋め込みを単語の類似性タスクに使用し、その結果を既存の技術と比較しました。
論文 参考訳(メタデータ) (2021-02-22T12:56:26Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z) - A Clustering Framework for Lexical Normalization of Roman Urdu [10.746384310607157]
ウルドゥー語(ウルドゥー語: Urdu)は、ローマ文字で書かれたウルドゥー語の非公式な形式である。
標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。
ローマ・ウルドゥ・コーパスの語彙正規化のための特徴に基づくクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。