論文の概要: Tenyidie Syllabification corpus creation and deep learning applications
- arxiv url: http://arxiv.org/abs/2510.00629v2
- Date: Thu, 02 Oct 2025 13:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.457067
- Title: Tenyidie Syllabification corpus creation and deep learning applications
- Title(参考訳): Tenyidie Syllabification Corpusの作成とディープラーニング応用
- Authors: Teisovi Angami, Kevisino Khate,
- Abstract要約: テニディ語(Tenyidie language)は、インド北東部のナガランドで話されているチベット・ビルマン族の低資源語である。
我々の知る限りでは、この言語についてシラビフィケーションに関する研究は報告されていない。
この研究の貢献は、10,120の音節化されたテニディ語の作成と、Deep Learningの技法が作成されたコーパスに適用されたことである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Tenyidie language is a low-resource language of the Tibeto-Burman family spoken by the Tenyimia Community of Nagaland in the north-eastern part of India and is considered a major language in Nagaland. It is tonal, Subject-Object-Verb, and highly agglutinative in nature. Being a low-resource language, very limited research on Natural Language Processing (NLP) has been conducted. To the best of our knowledge, no work on syllabification has been reported for this language. Among the many NLP tasks, syllabification or syllabication is an important task in which the given word syllables are identified. The contribution of this work is the creation of 10,120 syllabified Tenyidie words and the application of the Deep Learning techniques on the created corpus. In this paper, we have applied LSTM, BLSTM, BLSTM+CRF, and Encoder-decoder deep learning architectures on our created dataset. In our dataset split of 80:10:10 (train:validation:test) set, we achieved the highest accuracy of 99.21% with BLSTM model on the test set. This work will find its application in numerous other NLP applications, such as morphological analysis, part-of-speech tagging, machine translation, etc, for the Tenyidie Language. Keywords: Tenyidie; NLP; syllabification; deep learning; LSTM; BLSTM; CRF; Encoder-decoder
- Abstract(参考訳): テニディ語(Tenyidie language)は、インド北東部のナガランドのテニミヤ族によって話されるチベット・ビルマン族の低資源語であり、ナガランドの主要な言語と考えられている。
トーナルであり、主観的目的語であり、自然界において非常に不可解である。
低リソース言語であるため、自然言語処理(NLP)の研究は非常に限られている。
我々の知る限りでは、この言語についてシラビフィケーションに関する研究は報告されていない。
多くのNLPタスクの中で、音節化や音節化は、与えられた単語の音節を識別する重要なタスクである。
この研究の貢献は、10,120の音節化されたテニディ語の作成と、Deep Learningの技法が作成されたコーパスに適用されたことである。
本稿では,LSTM,BLSTM,BLSTM+CRF,Encoder-decoderディープラーニングアーキテクチャを作成したデータセットに適用した。
80:10:10 (train:validation:test) のデータセット分割では,テストセット上での BLSTM モデルでは,99.21% の精度を達成した。
この研究は、形態解析、音声のタグ付け、機械翻訳など、他の多くのNLPアプリケーションに適用される予定である。
キーワード:Tenyidie, NLP, Syllabification, Deep Learning, LSTM, BLSTM, CRF, Encoder-decoder
関連論文リスト
- Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - AsPOS: Assamese Part of Speech Tagger using Deep Learning Approach [7.252817150901275]
音声(POS)タグ付けは自然言語処理(NLP)に不可欠である
本稿では,AssameseのためのDeep Learning (DL)ベースのPOSタグを提示する。
F1スコアのタグ付け精度は86.52%に達した。
論文 参考訳(メタデータ) (2022-12-14T05:36:18Z) - naab: A ready-to-use plug-and-play corpus for Farsi [1.381198851698147]
naabは、最も公開されており、クリーンで、使えるFarsiテキストコーパスである。
Naabは130GBのデータで、2億5000万の段落と150億の単語で構成されている。
Naab-rawは、前処理ツールキットとともに、データセットの未処理バージョンである。
論文 参考訳(メタデータ) (2022-08-29T10:40:58Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。