論文の概要: Sinhala Transliteration: A Comparative Analysis Between Rule-based and Seq2Seq Approaches
- arxiv url: http://arxiv.org/abs/2501.00529v1
- Date: Tue, 31 Dec 2024 16:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:55.752270
- Title: Sinhala Transliteration: A Comparative Analysis Between Rule-based and Seq2Seq Approaches
- Title(参考訳): Sinhala Transliteration:ルールベースとSeq2Seqアプローチの比較分析
- Authors: Yomal De Mel, Kasun Wickramasinghe, Nisansa de Silva, Surangika Ranathunga,
- Abstract要約: 本研究では,Sinhalaのローマ字訳に焦点をあてる。
この問題に対処する2つの方法を提案する。
後者については,Transformer ベースの Encode-Decoder ソリューションを提案する。
- 参考スコア(独自算出の注目度): 1.2499537119440243
- License:
- Abstract: Due to reasons of convenience and lack of tech literacy, transliteration (i.e., Romanizing native scripts instead of using localization tools) is eminently prevalent in the context of low-resource languages such as Sinhala, which have their own writing script. In this study, our focus is on Romanized Sinhala transliteration. We propose two methods to address this problem: Our baseline is a rule-based method, which is then compared against our second method where we approach the transliteration problem as a sequence-to-sequence task akin to the established Neural Machine Translation (NMT) task. For the latter, we propose a Transformer-based Encode-Decoder solution. We witnessed that the Transformer-based method could grab many ad-hoc patterns within the Romanized scripts compared to the rule-based method. The code base associated with this paper is available on GitHub - https://github.com/kasunw22/Sinhala-Transliterator/
- Abstract(参考訳): 利便性と技術的リテラシーの欠如により、翻訳(ローカライゼーションツールの代わりにネイティブスクリプトをロマライズする)はシンハラのような低リソース言語の文脈で顕著に普及している。
本研究では,Sinhalaのローマ字訳に焦点をあてる。
提案手法はルールベース手法であり,既存のニューラル機械翻訳(NMT)タスクに類似したシーケンス・ツー・シーケンスタスクとして,文読解問題にアプローチする第2の手法と比較する。
後者については,Transformer ベースの Encode-Decoder ソリューションを提案する。
私たちはTransformerベースの手法が、ルールベースの手法と比較して、ローマ字化スクリプト内の多くのアドホックパターンをつかむのを目撃した。
https://github.com/kasunw22/Sinhala-Transliterator/
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Structured Dialogue Discourse Parsing [79.37200787463917]
談話解析は、多人数会話の内部構造を明らかにすることを目的としている。
本稿では,符号化と復号化という2つの観点から,従来の作業を改善する原理的手法を提案する。
実験の結果,本手法は,STACでは2.3,Mollweniでは1.5,先行モデルでは2.3を上回った。
論文 参考訳(メタデータ) (2023-06-26T22:51:01Z) - DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting [112.45423990924283]
DeepSolo++は単純なDETRライクなベースラインで、テキスト検出、認識、スクリプト識別を同時に行うために、明示的なポイントを持つ1つのデコーダを単独で使用することができる。
本手法は、英語のシーンだけでなく、複雑なフォント構造と中国語などの1000レベルの文字クラスで書き起こしを習得する。
論文 参考訳(メタデータ) (2023-05-31T15:44:00Z) - Align, Write, Re-order: Explainable End-to-End Speech Translation via
Operation Sequence Generation [37.48971774827332]
後から再注文する方法を記憶しながら,STトークンをアウト・オブ・オーダーで生成することを提案する。
本研究は, モノトニック文字起こしと非モノトニック翻訳を可能にする2種類の操作シーケンスについて検討する。
論文 参考訳(メタデータ) (2022-11-11T02:29:28Z) - Fine-grained style control in Transformer-based Text-to-speech Synthesis [78.92428622630861]
本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
論文 参考訳(メタデータ) (2021-10-12T19:50:02Z) - Transductive Learning for Unsupervised Text Style Transfer [60.65782243927698]
教師なしスタイル転送モデルは、主に帰納的学習アプローチに基づいている。
本稿では,検索に基づく文脈認識スタイルの表現に基づく新しいトランスダクティブ学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-16T08:57:20Z) - Reinforcement Learning for on-line Sequence Transformation [0.0]
トークンを読むか、別のトークンを書くべきかを判断するために、強化によって学習するアーキテクチャを導入します。
実験では、ニューラルネットワーク翻訳の最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-28T20:31:25Z) - Learning Multiple Sound Source 2D Localization [7.564344795030588]
複数音源定位のための深層学習に基づく新しいアルゴリズムを提案する。
エンコーディングデコードアーキテクチャを使用して、タスクを達成するために2つの改善を提案します。
解像度に基づく複数ソースアソシエーションに基づく新しいメトリクスが開発されている。
論文 参考訳(メタデータ) (2020-12-10T08:51:16Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。