論文の概要: A Clustering Framework for Lexical Normalization of Roman Urdu
- arxiv url: http://arxiv.org/abs/2004.00088v1
- Date: Tue, 31 Mar 2020 20:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:13:30.897479
- Title: A Clustering Framework for Lexical Normalization of Roman Urdu
- Title(参考訳): ローマ・ウルドゥー語の語彙正規化のためのクラスタリングフレームワーク
- Authors: Abdul Rafae Khan, Asim Karim, Hassan Sajjad, Faisal Kamiran, and Jia
Xu
- Abstract要約: ウルドゥー語(ウルドゥー語: Urdu)は、ローマ文字で書かれたウルドゥー語の非公式な形式である。
標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。
ローマ・ウルドゥ・コーパスの語彙正規化のための特徴に基づくクラスタリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.746384310607157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Roman Urdu is an informal form of the Urdu language written in Roman script,
which is widely used in South Asia for online textual content. It lacks
standard spelling and hence poses several normalization challenges during
automatic language processing. In this article, we present a feature-based
clustering framework for the lexical normalization of Roman Urdu corpora, which
includes a phonetic algorithm UrduPhone, a string matching component, a
feature-based similarity function, and a clustering algorithm Lex-Var.
UrduPhone encodes Roman Urdu strings to their pronunciation-based
representations. The string matching component handles character-level
variations that occur when writing Urdu using Roman script.
- Abstract(参考訳): ローマ・ウルドゥ語(英語: roman urdu)は、南アジアで広く使われているウルドゥ語の非公式な形式である。
標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。
本稿では,音声アルゴリズムのUrduPhone,文字列マッチングコンポーネント,特徴量に基づく類似関数,クラスタリングアルゴリズムのLex-Varを含む,ロマ・ウルドゥコーパスの語彙正規化のための特徴量クラスタリングフレームワークを提案する。
UrduPhoneはローマのウルドゥー文字列を発音に基づく表現にエンコードする。
文字列マッチングコンポーネントは、ローマ文字を使用してUrduを書くときに発生する文字レベルのバリエーションを処理する。
関連論文リスト
- RomanSetu: Efficiently unlocking multilingual capabilities of Large
Language Models models via Romanization [18.345223839163367]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - CALText: Contextual Attention Localization for Offline Handwritten Text [1.066048003460524]
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。
我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-06T19:54:21Z) - Context based Roman-Urdu to Urdu Script Transliteration System [0.0]
この研究の目的は、ローマ・ウルドゥー文字からウルドゥー文字への文脈ベースの翻訳を改善することである。
このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。
論文 参考訳(メタデータ) (2021-09-29T05:24:55Z) - Automatic Romanization of Arabic Bibliographic Records [0.0]
本稿では,未記述のアラビア語項目の自動ローマ字化に関する最初の報告結果を示す。
この複雑な作業はアラビア音韻学、形態学、さらには意味論のモデリングを必要とする。
私達の最もよいシステムは盲目のテスト セットの89.3%の厳密な単語のロマン化に達します。
論文 参考訳(メタデータ) (2021-03-12T10:46:32Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。