論文の概要: Modeling Romanized Hindi and Bengali: Dataset Creation and Multilingual LLM Integration
- arxiv url: http://arxiv.org/abs/2511.22769v1
- Date: Thu, 27 Nov 2025 21:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.713877
- Title: Modeling Romanized Hindi and Bengali: Dataset Creation and Multilingual LLM Integration
- Title(参考訳): ロマン化ヒンディー語とベンガル語のモデリング:データセット作成と多言語LLM統合
- Authors: Kanchon Gharami, Quazi Sarwar Muhtaseem, Deepti Gupta, Lavanya Elluri, Shafika Showkat Moni,
- Abstract要約: 本研究では,ヒンディー語とベンガル語という2つのポピュラーなインド・アーリア語の翻訳データセットについて紹介する。
私たちのデータセットは、約180万のヒンディー語と100万のベンガル文字のペアで構成されています。
実験の結果,BLEUとCERの指標から既存の関連するモデルと比較すると,大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 0.3650590856721958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of robust transliteration techniques to enhance the effectiveness of transforming Romanized scripts into native scripts is crucial for Natural Language Processing tasks, including sentiment analysis, speech recognition, information retrieval, and intelligent personal assistants. Despite significant advancements, state-of-the-art multilingual models still face challenges in handling Romanized script, where the Roman alphabet is adopted to represent the phonetic structure of diverse languages. Within the South Asian context, where the use of Romanized script for Indo-Aryan languages is widespread across social media and digital communication platforms, such usage continues to pose significant challenges for cutting-edge multilingual models. While a limited number of transliteration datasets and models are available for Indo-Aryan languages, they generally lack sufficient diversity in pronunciation and spelling variations, adequate code-mixed data for large language model (LLM) training, and low-resource adaptation. To address this research gap, we introduce a novel transliteration dataset for two popular Indo-Aryan languages, Hindi and Bengali, which are ranked as the 3rd and 7th most spoken languages worldwide. Our dataset comprises nearly 1.8 million Hindi and 1 million Bengali transliteration pairs. In addition to that, we pre-train a custom multilingual seq2seq LLM based on Marian architecture using the developed dataset. Experimental results demonstrate significant improvements compared to existing relevant models in terms of BLEU and CER metrics.
- Abstract(参考訳): ロマン化スクリプトをネイティブスクリプトに変換するための堅牢な翻訳技術の開発は、感情分析、音声認識、情報検索、インテリジェントパーソナルアシスタントなどの自然言語処理タスクに不可欠である。
著しい進歩にもかかわらず、最先端の多言語モデルはローマ字を扱い、ローマ字は多様な言語の音素構造を表現するために使われている。
南アジアの文脈では、インド・アーリア語に対するロマン化文字の使用がソーシャルメディアやデジタルコミュニケーションプラットフォームに広まっているため、このような使用は最先端の多言語モデルに重大な課題を呈し続けている。
インド・アーリア語では、限られた数の翻訳データセットとモデルが利用できるが、発音や綴りのバリエーション、大規模言語モデル(LLM)トレーニングのための十分なコード混合データ、低リソース適応は一般的に不足している。
この研究ギャップに対処するため、ヒンディー語とベンガル語という2つのポピュラーなインド・アーリア語の翻訳データセットを導入し、世界第3位と第7位にランク付けした。
私たちのデータセットは、約180万のヒンディー語と100万のベンガル文字のペアで構成されています。
それに加えて、開発したデータセットを用いて、Marianアーキテクチャに基づくカスタム多言語セq2seq LLMを事前訓練する。
実験の結果,BLEUとCERの指標から既存の関連するモデルと比較すると,大幅な改善が見られた。
関連論文リスト
- ILID: Native Script Language Identification for Indian Languages [0.0]
言語識別のコア課題は、ノイズの多い、短い、そしてコード混在した環境で言語を区別することにある。
英語を含む23の言語と、その言語識別子をラベル付けした22の公用語からなる250K文のデータセットをリリースする。
我々のモデルは、言語識別タスクのための最先端の訓練済みトランスフォーマーモデルより優れています。
論文 参考訳(メタデータ) (2025-07-16T01:39:32Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - Cross-lingual Editing in Multilingual Language Models [1.3062731746155414]
本稿では,言語間モデル編集(textbfXME)パラダイムを紹介し,事実を一つの言語で編集し,その後の更新伝搬を他の言語で観察する。
その結果,言語が2つの異なるスクリプトファミリーに属している場合を中心に,XME設定下での最先端のMETの性能制限が顕著に示された。
論文 参考訳(メタデータ) (2024-01-19T06:54:39Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。