論文の概要: A Clustering Framework for Lexical Normalization of Roman Urdu
- arxiv url: http://arxiv.org/abs/2004.00088v1
- Date: Tue, 31 Mar 2020 20:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:13:30.897479
- Title: A Clustering Framework for Lexical Normalization of Roman Urdu
- Title(参考訳): ローマ・ウルドゥー語の語彙正規化のためのクラスタリングフレームワーク
- Authors: Abdul Rafae Khan, Asim Karim, Hassan Sajjad, Faisal Kamiran, and Jia
Xu
- Abstract要約: ウルドゥー語(ウルドゥー語: Urdu)は、ローマ文字で書かれたウルドゥー語の非公式な形式である。
標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。
ローマ・ウルドゥ・コーパスの語彙正規化のための特徴に基づくクラスタリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.746384310607157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Roman Urdu is an informal form of the Urdu language written in Roman script,
which is widely used in South Asia for online textual content. It lacks
standard spelling and hence poses several normalization challenges during
automatic language processing. In this article, we present a feature-based
clustering framework for the lexical normalization of Roman Urdu corpora, which
includes a phonetic algorithm UrduPhone, a string matching component, a
feature-based similarity function, and a clustering algorithm Lex-Var.
UrduPhone encodes Roman Urdu strings to their pronunciation-based
representations. The string matching component handles character-level
variations that occur when writing Urdu using Roman script.
- Abstract(参考訳): ローマ・ウルドゥ語(英語: roman urdu)は、南アジアで広く使われているウルドゥ語の非公式な形式である。
標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。
本稿では,音声アルゴリズムのUrduPhone,文字列マッチングコンポーネント,特徴量に基づく類似関数,クラスタリングアルゴリズムのLex-Varを含む,ロマ・ウルドゥコーパスの語彙正規化のための特徴量クラスタリングフレームワークを提案する。
UrduPhoneはローマのウルドゥー文字列を発音に基づく表現にエンコードする。
文字列マッチングコンポーネントは、ローマ文字を使用してUrduを書くときに発生する文字レベルのバリエーションを処理する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - Unicode Normalization and Grapheme Parsing of Indic Languages [2.974799610163104]
インド語の表記体系は、一意の水平単位として、複素グラフエム(complex graphemes)としても知られる正書法音節を持つ。
提案した正規化器は、以前使用したIndic normalizerよりも効率的で効果的なツールである。
本研究では,7言語スクリプトのパイプラインを報告し,さらに多くのスクリプトを統合するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-11T14:34:08Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - CALText: Contextual Attention Localization for Offline Handwritten Text [1.066048003460524]
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。
我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-06T19:54:21Z) - Context based Roman-Urdu to Urdu Script Transliteration System [0.0]
この研究の目的は、ローマ・ウルドゥー文字からウルドゥー文字への文脈ベースの翻訳を改善することである。
このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。
論文 参考訳(メタデータ) (2021-09-29T05:24:55Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。