論文の概要: Part-of-speech tagging for Nagamese Language using CRF
- arxiv url: http://arxiv.org/abs/2509.19343v2
- Date: Thu, 25 Sep 2025 02:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.109406
- Title: Part-of-speech tagging for Nagamese Language using CRF
- Title(参考訳): CRFを用いた長目言語のためのパート・オブ・音声タギング
- Authors: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami,
- Abstract要約: 本稿では,ナガメ語における自然言語処理(NLP)の重要な課題である音声タグ付けについて検討する。
16,112個のトークンの注釈付きコーパスを作成し、条件ランダムフィールド(Conditional Random Fields, CRF)として知られる機械学習技術を適用した。
CRFを用いて、全体のタグ付け精度は85.70%、精度は86%、f1スコアは85%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
- Abstract(参考訳): 本稿では,ナガメ語における自然言語処理(NLP)の重要な課題である音声タグ付けについて検討する。
ナガメス語(英: Nagamese language)またはナガメス語(英: Nagamese language、別名 Naga Pidgin)は、主にインド北東部のアサムから来たアサム人との交易におけるコミュニケーション手段として発達したアサメ系クレオール語である。
英語やヒンディー語など、リソースに富む言語に対して、音声のタグ付けに関する作業が相当に行われている。
しかし、長染国語での研究は行われていない。
私たちの知る限りでは、これはナガメセ語のパート・オブ・スペルタグ付けの最初の試みである。
本研究の目的は、長目語で与えられた文のパート・オブ・スペルを識別することである。
16,112個のトークンの注釈付きコーパスが作成され、Conditional Random Fields (CRF)として知られる機械学習技術が適用される。
CRFを用いて、全体のタグ付け精度は85.70%、精度は86%、f1スコアは85%である。
キーワード。
Nagamese, NLP, part-of-speech, machine learning, CRF。
関連論文リスト
- Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages [6.74683227658822]
インドには1369の言語があり、22の公用語が13のスクリプトを使用している。
我々の研究はゼロショット合成に焦点を当てており、特にスクリプトとフォノタクティクスが異なる家系の言語を対象としている。
サンスクリット語、マハーラーシュトリアン語、カナラ・コンカニ語、マイティリ語、クルフ語のために、知的で自然なスピーチが作られた。
論文 参考訳(メタデータ) (2025-06-04T12:22:24Z) - Survey of Pseudonymization, Abstractive Summarization & Spell Checker for Hindi and Marathi [0.0]
本研究の目的は,英語,ヒンディー語,マラティア語でテキスト匿名化,抽象的テキスト要約,スペルチェックなど,さまざまな機能を利用できるプラットフォームを構築することである。
これらのツールの目的は、主にインド地域言語を使用する企業や消費者の顧客に提供することである。
論文 参考訳(メタデータ) (2024-12-24T04:51:32Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - AsPOS: Assamese Part of Speech Tagger using Deep Learning Approach [7.252817150901275]
音声(POS)タグ付けは自然言語処理(NLP)に不可欠である
本稿では,AssameseのためのDeep Learning (DL)ベースのPOSタグを提示する。
F1スコアのタグ付け精度は86.52%に達した。
論文 参考訳(メタデータ) (2022-12-14T05:36:18Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z) - BNLP: Natural language processing toolkit for Bengali language [0.0]
BNLPはベンガル語のためのオープンソースの言語処理ツールキットである。
トークン化、ワード埋め込み、POSタグ付け、NERタグ付け機能で構成される。
BNLPはベンガルの研究コミュニティで広く利用されており、16Kダウンロード、119の星と31のフォークがある。
論文 参考訳(メタデータ) (2021-01-31T07:56:08Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Speech Corpus of Ainu Folklore and End-to-end Speech Recognition for
Ainu Language [32.6535407800833]
アイヌ語(アイヌ語: Ainu language)は、アイヌの民族の1つ。
ユネスコによって危惧され、言語遺産のアーカイブと文書化が最重要視されている。
我々は,注釈付き言語アーカイブの開発に寄与するため,アイヌ語の自動音声認識(ASR)プロジェクトを開始した。
論文 参考訳(メタデータ) (2020-02-16T20:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。