論文の概要: AyutthayaAlpha: A Thai-Latin Script Transliteration Transformer
- arxiv url: http://arxiv.org/abs/2412.03877v1
- Date: Thu, 05 Dec 2024 05:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:42.278307
- Title: AyutthayaAlpha: A Thai-Latin Script Transliteration Transformer
- Title(参考訳): アユタヤアルファ(AyutthayaAlpha):タイ・ラテン文字のトランスフォーマー。
- Authors: Davor Lauc, Attapol Rutherford, Weerin Wongwarawipatr,
- Abstract要約: 本研究では,タイ語の固有名称をラテン文字に翻訳するために設計された,高度なトランスフォーマーベース機械学習モデルであるAyutthayaAlphaを紹介する。
本システムでは,文字誤り率0.0047を維持しながら,82.32%,95.24%の精度で最先端性能を実現している。
- 参考スコア(独自算出の注目度): 1.9662978733004601
- License:
- Abstract: This study introduces AyutthayaAlpha, an advanced transformer-based machine learning model designed for the transliteration of Thai proper names into Latin script. Our system achieves state-of-the-art performance with 82.32% first-token accuracy and 95.24% first-three-token accuracy, while maintaining a low character error rate of 0.0047. The complexity of Thai phonology, including tonal features and vowel length distinctions, presents significant challenges for accurate transliteration, which we address through a novel two-model approach: AyutthayaAlpha-Small, based on the ByT5 architecture, and AyutthayaAlpha-VerySmall, a computationally efficient variant that unexpectedly outperforms its larger counterpart. Our research combines linguistic rules with deep learning, training on a carefully curated dataset of 1.2 million Thai-Latin name pairs, augmented through strategic upsampling to 2.7 million examples. Extensive evaluations against existing transliteration methods and human expert benchmarks demonstrate that AyutthayaAlpha not only achieves superior accuracy but also effectively captures personal and cultural preferences in name romanization. The system's practical applications extend to cross-lingual information retrieval, international data standardization, and identity verification systems, with particular relevance for government databases, academic institutions, and global business operations. This work represents a significant advance in bridging linguistic gaps between Thai and Latin scripts, while respecting the cultural and personal dimensions of name transliteration.
- Abstract(参考訳): 本研究では,タイ語の固有名称をラテン文字に翻訳するために設計された,高度なトランスフォーマーベース機械学習モデルであるAyutthayaAlphaを紹介する。
本システムでは,文字誤り率0.0047を維持しながら,82.32%,95.24%の精度で最先端性能を実現している。
ByT5 アーキテクチャに基づく AyutthayaAlpha-Small と、予期せぬほど計算効率のよい AyutthayaAlpha-VerySmall である。
我々の研究は、言語ルールとディープラーニングを組み合わせることで、12万のタイとラテンの名前のペアを慎重にキュレートしたデータセットでトレーニングし、戦略的アップサンプリングを通じて270万のサンプルに拡張します。
AyutthayaAlphaは優れた精度を達成できるだけでなく、名前のロマン化における個人的・文化的嗜好を効果的に捉えている。
このシステムの実践的応用は、言語間情報検索、国際データ標準化、アイデンティティ検証システムにまで拡張され、政府データベース、学術機関、グローバルビジネスオペレーションに特に関連がある。
この作品は、タイ語とラテン文字の言語的ギャップを埋める上で重要な進歩であり、名前の文字化の文化的側面と個人的側面を尊重している。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - What Differentiates Educational Literature? A Multimodal Fusion Approach of Transformers and Computational Linguistics [0.7342677574855649]
英語カリキュラムへの新しい文学の統合は、様々な教室のニーズに対して、読みやすさとテキストの適応を迅速に評価するスケーラブルなツールがしばしば欠如しているため、依然として課題である。
本研究は,変圧器を用いたテキスト分類と言語的特徴分析を組み合わせたマルチモーダル手法により,このギャップに対処することを提案する。
提案手法は、ステークホルダーが対象とするWebアプリケーションにカプセル化され、非技術ステークホルダーが、テキストの複雑さ、読みやすさ、カリキュラムのアライメント、学習年齢範囲に関するリアルタイムな洞察にアクセスできるようにする。
論文 参考訳(メタデータ) (2024-11-26T17:01:27Z) - A New Method for Cross-Lingual-based Semantic Role Labeling [5.992526851963307]
英語とペルシア語のセマンティック・ロール・ラベリングを訓練するためのディープラーニングアルゴリズムが提案されている。
その結果,Niksirt et al.のモデルと比較すると,有意な改善が認められた。
セマンティックロールラベリングのための言語間メソッドの開発は、約束を守る。
論文 参考訳(メタデータ) (2024-08-28T16:06:12Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - ThaiCoref: Thai Coreference Resolution Dataset [0.07852714805965527]
ThaiCorefは、タイのコア参照解決のためのデータセットである。
データセットは、777,271のトークン、44,082の参照、および4つのテキストジャンルの10,429のエンティティで構成されています。
論文 参考訳(メタデータ) (2024-06-10T03:47:24Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。