論文の概要: Romanized to Native Malayalam Script Transliteration Using an Encoder-Decoder Framework
- arxiv url: http://arxiv.org/abs/2412.09957v1
- Date: Fri, 13 Dec 2024 08:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:18.620592
- Title: Romanized to Native Malayalam Script Transliteration Using an Encoder-Decoder Framework
- Title(参考訳): Encoder-Decoder フレームワークを用いたネイティブマラヤラムスクリプトの文字化
- Authors: Bajiyo Baiju, Kavya Manohar, Leena G Pillai, Elizabeth Sherly,
- Abstract要約: 本稿では,ローマ字化マラヤラムを母語文字に変換する逆文字化モデルの開発について述べる。
公開可能なIndic言語トランスリテラクションデータセットから得られた430万のトランスリテラルペアのキュレートと組み合わせたコレクションを使用しました。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this work, we present the development of a reverse transliteration model to convert romanized Malayalam to native script using an encoder-decoder framework built with attention-based bidirectional Long Short Term Memory (Bi-LSTM) architecture. To train the model, we have used curated and combined collection of 4.3 million transliteration pairs derived from publicly available Indic language translitertion datasets, Dakshina and Aksharantar. We evaluated the model on two different test dataset provided by IndoNLP-2025-Shared-Task that contain, (1) General typing patterns and (2) Adhoc typing patterns, respectively. On the Test Set-1, we obtained a character error rate (CER) of 7.4%. However upon Test Set-2, with adhoc typing patterns, where most vowel indicators are missing, our model gave a CER of 22.7%.
- Abstract(参考訳): 本研究では,アテンションベースの双方向長短メモリ(Bi-LSTM)アーキテクチャで構築したエンコーダデコーダフレームワークを用いて,ロマン化マラヤラムをネイティブスクリプトに変換するリバース文字化モデルを提案する。
このモデルをトレーニングするために、公開されているIndic言語翻訳データセット、DakshinaとAksharantarから得られた430万の翻訳ペアのキュレートと組み合わせたコレクションを使用しました。
IndoNLP-2025-Shared-Taskが提供する2種類のテストデータセットを用いて,(1)汎用型付けパターンと(2)アドホック型付けパターンを含むモデルの評価を行った。
Test Set-1では文字誤り率(CER)が7.4%であった。
しかし、ほとんどの母音指標が欠けているアドホックなタイピングパターンを持つTest Set-2では、我々のモデルは22.7%のCERを与えた。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Joint Transformer/RNN Architecture for Gesture Typing in Indic Languages [17.051352821564002]
この作業は、Indic言語でのジェスチャータイピングをサポートするキーボードの開発を目的としている。
7つのIndic言語から193,658語のキーボードトレースを含むデータセットを作成する。
第2に、これらの言語にまたがるウィキデータから104,412の英印字ペアをキュレートする。
論文 参考訳(メタデータ) (2022-03-26T11:14:23Z) - Transfer Learning for Scene Text Recognition in Indian Languages [27.609596088151644]
本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。
インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。
我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
論文 参考訳(メタデータ) (2022-01-10T06:14:49Z) - Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。
タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文 参考訳(メタデータ) (2021-09-09T18:58:14Z) - Automatic Standardization of Colloquial Persian [15.192770717442302]
ペルシャ語のほとんどの自然言語処理ツールは、テキストが標準形式であると仮定している。
本稿では,シーケンシャル・ツー・シーケンス変換に基づく簡易かつ効果的な標準化手法について述べる。
論文 参考訳(メタデータ) (2020-12-10T18:39:26Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Attention-based Fully Gated CNN-BGRU for Russian Handwritten Text [0.5371337604556311]
本研究は、カザフ語とロシア語で訓練されたアテンションエンコーダ・デコーダネットワークを用いた手書きテキストのタスクにアプローチする。
我々は,複数の双方向GRUと注意機構をサポートした,完全ゲートCNNに基づく新しいディープニューラルネットワークモデルを開発した。
我々の研究は、HKRデータセットに関する最初の研究であり、既存のほとんどのモデルに最先端の結果を示す。
論文 参考訳(メタデータ) (2020-08-12T15:14:47Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。