論文の概要: Reconstructing Syllable Sequences in Abugida Scripts with Incomplete Inputs
- arxiv url: http://arxiv.org/abs/2505.11008v1
- Date: Fri, 16 May 2025 08:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.379016
- Title: Reconstructing Syllable Sequences in Abugida Scripts with Incomplete Inputs
- Title(参考訳): 不完全入力を用いた Abugida Script におけるSyllable Sequence の再構成
- Authors: Ye Kyaw Thu, Thazin Myint Oo,
- Abstract要約: 本稿では, ベンガル語, ヒンディー語, クメール語, ラオス語, ミャンマー語, タイ語の6言語に着目し, トランスフォーマーモデルを用いたバグダ語の音節列予測について検討する。
本研究では, 子音列, 母音列, 部分音節, マスク音節など, 様々な不完全入力型からの完全音節列の再構成について検討する。
実験の結果,子音列は高精度な音節予測において重要な役割を担い,高いBLEUスコアを達成する一方,母音列は大きな課題を示すことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper explores syllable sequence prediction in Abugida languages using Transformer-based models, focusing on six languages: Bengali, Hindi, Khmer, Lao, Myanmar, and Thai, from the Asian Language Treebank (ALT) dataset. We investigate the reconstruction of complete syllable sequences from various incomplete input types, including consonant sequences, vowel sequences, partial syllables (with random character deletions), and masked syllables (with fixed syllable deletions). Our experiments reveal that consonant sequences play a critical role in accurate syllable prediction, achieving high BLEU scores, while vowel sequences present a significantly greater challenge. The model demonstrates robust performance across tasks, particularly in handling partial and masked syllable reconstruction, with strong results for tasks involving consonant information and syllable masking. This study advances the understanding of sequence prediction for Abugida languages and provides practical insights for applications such as text prediction, spelling correction, and data augmentation in these scripts.
- Abstract(参考訳): 本稿では,アジア言語ツリーバンク(ALT)データセットから,ベンガル語,ヒンディー語,クメール語,ラオス語,ミャンマー語,タイ語の6言語に着目し,トランスフォーマーモデルを用いたバグダ語の音節列予測について検討する。
本研究では、子音列、母音列、部分音節(ランダム文字削除)、マスク音節(固定音節削除)など、様々な不完全入力型からの完全音節列の再構成について検討する。
実験の結果,子音列は高精度な音節予測において重要な役割を担い,高いBLEUスコアを達成する一方,母音列は大きな課題を示すことがわかった。
このモデルは、特に部分的およびマスキングされた音節再構成の処理において、子音情報や音節マスキングを含むタスクに対して、頑健な性能を示す。
本研究は,Abugida言語におけるシーケンス予測の理解を深め,テキスト予測やスペル補正,データ拡張などの応用のための実践的な洞察を提供する。
関連論文リスト
- Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Classifier identification in Ancient Egyptian as a low-resource sequence-labelling task [0.7237827208209208]
古代エジプト(AE)の書記体系は、グラテミック分類器(決定要因)の普及によって特徴づけられた
我々は,トレーニングデータの量が少なくても有望な性能を実現する一連のシーケンスラベリングニューラルモデルを実装した。
我々は、AEテキストの扱いから生じるトークン化と運用の問題について議論し、我々のアプローチを周波数ベースのベースラインと対比する。
論文 参考訳(メタデータ) (2024-06-29T15:40:25Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation [92.75908003533736]
本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-04-16T16:19:47Z) - Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-04-10T18:54:43Z) - Transcribing Natural Languages for The Deaf via Neural Editing Programs [84.0592111546958]
本研究の目的は,難聴者コミュニティのための自然言語文の書き起こしを目的とし,手話の発声を指示するグロス化の課題について検討することである。
以前のシーケンス・ツー・シーケンス言語モデルは、しばしば2つの異なる言語間の豊かな関係を捉えず、不満足な書き起こしにつながる。
異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。
論文 参考訳(メタデータ) (2021-12-17T16:21:49Z) - PARADISE: Exploiting Parallel Data for Multilingual Sequence-to-Sequence
Pretraining [19.785343302320918]
PARADISE (PARAllel & Denoising Integration in Sequence-to-Sequence Model)を提案する。
これは、(i)マルチリンガル辞書に従ってノイズシーケンス中の単語を置換し、(ii)パラレルコーパスに従って参照翻訳を予測することによって、これらのモデルを訓練するために使用される従来の認知目標を拡張する。
機械翻訳および言語間自然言語推論実験により, 並列データから事前学習への統合により, BLEU点2.0点, 精度6.7点の平均的改善が得られた。
論文 参考訳(メタデータ) (2021-08-04T07:32:56Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。