論文の概要: Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2503.21530v1
- Date: Thu, 27 Mar 2025 14:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:40.976359
- Title: Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models
- Title(参考訳): 変圧器モデルを用いたローマ・ウルドゥー語とウルドゥー語に対する低リソース文字化
- Authors: Umer Butt, Stalin Veranasi, Günter Neumann,
- Abstract要約: ウルドゥー語とそのローマ字形であるウルドゥー語との音訳は未発見のままである。
我々はm2m100多言語翻訳モデルを用いたトランスフォーマーに基づく手法を提案する。
我々のモデルは、ウルドゥー語で96.37点、ウルドゥー語で97.44点、ウルドゥー語で96.37点という高い音訳性能を達成している。
- 参考スコア(独自算出の注目度): 0.6554326244334868
- License:
- Abstract: As the Information Retrieval (IR) field increasingly recognizes the importance of inclusivity, addressing the needs of low-resource languages remains a significant challenge. Transliteration between Urdu and its Romanized form, Roman Urdu, remains underexplored despite the widespread use of both scripts in South Asia. Prior work using RNNs on the Roman-Urdu-Parl dataset showed promising results but suffered from poor domain adaptability and limited evaluation. We propose a transformer-based approach using the m2m100 multilingual translation model, enhanced with masked language modeling (MLM) pretraining and fine-tuning on both Roman-Urdu-Parl and the domain-diverse Dakshina dataset. To address previous evaluation flaws, we introduce rigorous dataset splits and assess performance using BLEU, character-level BLEU, and CHRF. Our model achieves strong transliteration performance, with Char-BLEU scores of 96.37 for Urdu->Roman-Urdu and 97.44 for Roman-Urdu->Urdu. These results outperform both RNN baselines and GPT-4o Mini and demonstrate the effectiveness of multilingual transfer learning for low-resource transliteration tasks.
- Abstract(参考訳): 情報検索(IR)分野は、インクリビティの重要性をますます認識しているため、低リソース言語のニーズに対応することは、依然として大きな課題である。
ウルドゥー語とローマ字の音訳は、南アジアで広く使われているにもかかわらず、未発見のままである。
Roman-Urdu-ParlデータセットでRNNを使用した以前の研究は有望な結果を示したが、ドメイン適応性の低下と限定的な評価に悩まされた。
我々は,m2m100多言語翻訳モデルを用いたトランスフォーマーベースアプローチを提案する。
従来の評価欠陥に対処するため,厳密なデータセット分割を導入し,BLEU,キャラクタレベルBLEU,CHRFを用いて性能評価を行う。
我々のモデルは、ウルドゥー語で96.37点、ウルドゥー語で97.44点、ウルドゥー語で96.37点という高い音訳性能を達成している。
これらの結果は RNN ベースラインと GPT-4o Mini より優れており、低リソース文字起こしタスクにおける多言語変換学習の有効性を実証している。
関連論文リスト
- ERUPD -- English to Roman Urdu Parallel Dataset [0.0]
ローマ・ウルドゥー(Roman Urdu)は、ウルドゥーのラテン文字対応言語である。
本研究では75,146対の文対からなる新しい並列データセットを作成する。
論文 参考訳(メタデータ) (2024-12-23T13:33:09Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。