Fugu-MT 論文翻訳(概要): A Clustering Framework for Lexical Normalization of Roman Urdu

論文の概要: A Clustering Framework for Lexical Normalization of Roman Urdu

arxiv url: http://arxiv.org/abs/2004.00088v1
Date: Tue, 31 Mar 2020 20:21:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 00:13:30.897479
Title: A Clustering Framework for Lexical Normalization of Roman Urdu
Title（参考訳）: ローマ・ウルドゥー語の語彙正規化のためのクラスタリングフレームワーク
Authors: Abdul Rafae Khan, Asim Karim, Hassan Sajjad, Faisal Kamiran, and Jia Xu
Abstract要約: ウルドゥー語(ウルドゥー語: Urdu)は、ローマ文字で書かれたウルドゥー語の非公式な形式である。標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。ローマ・ウルドゥ・コーパスの語彙正規化のための特徴に基づくクラスタリングフレームワークを提案する。
参考スコア（独自算出の注目度）: 10.746384310607157
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Roman Urdu is an informal form of the Urdu language written in Roman script, which is widely used in South Asia for online textual content. It lacks standard spelling and hence poses several normalization challenges during automatic language processing. In this article, we present a feature-based clustering framework for the lexical normalization of Roman Urdu corpora, which includes a phonetic algorithm UrduPhone, a string matching component, a feature-based similarity function, and a clustering algorithm Lex-Var. UrduPhone encodes Roman Urdu strings to their pronunciation-based representations. The string matching component handles character-level variations that occur when writing Urdu using Roman script.
Abstract（参考訳）: ローマ・ウルドゥ語(英語: roman urdu)は、南アジアで広く使われているウルドゥ語の非公式な形式である。標準的な綴りがないため、自動言語処理においていくつかの正規化の課題が生じる。本稿では,音声アルゴリズムのUrduPhone,文字列マッチングコンポーネント,特徴量に基づく類似関数,クラスタリングアルゴリズムのLex-Varを含む,ロマ・ウルドゥコーパスの語彙正規化のための特徴量クラスタリングフレームワークを提案する。 UrduPhoneはローマのウルドゥー文字列を発音に基づく表現にエンコードする。文字列マッチングコンポーネントは、ローマ文字を使用してUrduを書くときに発生する文字レベルのバリエーションを処理する。

関連論文リスト

Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration [70.84108518476744]
我々は,スクリプトが多言語音声モデルのアクティベーション空間に線形に符号化されていることを示し,推論時にアクティベーションを変更することで,出力スクリプトを直接制御できることを示した。本稿では,Whisperの全モデルサイズにまたがる競合性能を観測し,音声認識出力のスクリプトに対するポストホック制御を実現する手法を提案する。
論文参考訳（メタデータ） (2026-01-06T10:45:04Z)
Improving Informally Romanized Language Identification [49.404145019682666]
ローマ化は、ヒンディー語やウルドゥー語など、文字の難易度に基づいて、通常容易に区別できる言語を表現している。我々は、トレーニングセットを合成する手法を改善することにより、ロマライズされたテキストの言語識別(LID)精度を向上させる。本研究では,Bhasha-Abhijnaanam 評価セットにおける20のIndic言語からのロマン化テキストに対して,最先端の LID 性能を示す。
論文参考訳（メタデータ） (2025-04-30T11:36:28Z)
ERUPD -- English to Roman Urdu Parallel Dataset [0.0]
ローマ・ウルドゥー(Roman Urdu)は、ウルドゥーのラテン文字対応言語である。本研究では75,146対の文対からなる新しい並列データセットを作成する。
論文参考訳（メタデータ） (2024-12-23T13:33:09Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文参考訳（メタデータ） (2024-05-21T06:48:26Z)
RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文参考訳（メタデータ） (2024-01-25T16:11:41Z)
Unicode Normalization and Grapheme Parsing of Indic Languages [2.974799610163104]
インド語の表記体系は、一意の水平単位として、複素グラフエム(complex graphemes)としても知られる正書法音節を持つ。提案した正規化器は、以前使用したIndic normalizerよりも効率的で効果的なツールである。本研究では,7言語スクリプトのパイプラインを報告し,さらに多くのスクリプトを統合するためのフレームワークを開発する。
論文参考訳（メタデータ） (2023-05-11T14:34:08Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Challenge Dataset of Cognates and False Friend Pairs from Indian Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文参考訳（メタデータ） (2021-12-17T14:23:43Z)
CALText: Contextual Attention Localization for Offline Handwritten Text [1.066048003460524]
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
論文参考訳（メタデータ） (2021-11-06T19:54:21Z)
Context based Roman-Urdu to Urdu Script Transliteration System [0.0]
この研究の目的は、ローマ・ウルドゥー文字からウルドゥー文字への文脈ベースの翻訳を改善することである。このアルゴリズムは、ローマ語の単語を標準のウルドゥー文字の単語に変換し、それを辞書と照合する。
論文参考訳（メタデータ） (2021-09-29T05:24:55Z)
Processing South Asian Languages Written in the Latin Script: the Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。 1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文参考訳（メタデータ） (2020-07-02T14:57:28Z)
2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文参考訳（メタデータ） (2020-05-07T10:53:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。