論文の概要: NagaNLP: Bootstrapping NLP for Low-Resource Nagamese Creole with Human-in-the-Loop Synthetic Data
- arxiv url: http://arxiv.org/abs/2512.12537v1
- Date: Sun, 14 Dec 2025 04:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.301922
- Title: NagaNLP: Bootstrapping NLP for Low-Resource Nagamese Creole with Human-in-the-Loop Synthetic Data
- Title(参考訳): NagaNLP:Human-in-the-Loop Synthetic Dataを用いた低リソース長目クレオールのブートストラップNLP
- Authors: Agniva Maiti, Manya Pandey, Murari Mandal,
- Abstract要約: NagaNLPは、Nagameseの包括的なオープンソースツールキットである。
LLM駆動だが人為的な合成データ生成に依存している。
私たちは差別モデルと生成モデルの両方を訓練します。
- 参考スコア(独自算出の注目度): 6.689013010749215
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The vast majority of the world's languages, particularly creoles like Nagamese, remain severely under-resourced in Natural Language Processing (NLP), creating a significant barrier to their representation in digital technology. This paper introduces NagaNLP, a comprehensive open-source toolkit for Nagamese, bootstrapped through a novel methodology that relies on LLM-driven but human-validated synthetic data generation. We detail a multi-stage pipeline where an expert-guided LLM (Gemini) generates a candidate corpus, which is then refined and annotated by native speakers. This synthetic-hybrid approach yielded a 10K pair conversational dataset and a high-quality annotated corpus for foundational tasks. To assess the effectiveness of our methodology, we trained both discriminative and generative models. Our fine-tuned XLM-RoBERTa-base model establishes a new benchmark for Nagamese, achieving a 93.81\% accuracy (0.90 F1-Macro) on Part-of-Speech tagging and a 0.75 F1-Macro on Named Entity Recognition, massively outperforming strong zero-shot baselines. Furthermore, we fine-tuned a Llama-3.2-3B Instruct model, named NagaLLaMA, which demonstrates superior performance on conversational tasks, achieving a Perplexity of 3.85, an order of magnitude improvement over its few-shot counterpart (96.76). We release the NagaNLP toolkit, including all datasets, models, and code, providing a foundational resource for a previously underserved language and a reproducible framework for reducing data scarcity in other low-resource contexts.
- Abstract(参考訳): 世界の言語の大部分、特にナガメ語のようなクレオールは、自然言語処理 (NLP) において過小評価されており、デジタル技術における彼らの表現に大きな障壁となっている。
本稿では,LLM駆動だが人為的な合成データ生成に依存する新しい手法により,ナガメのオープンソースツールキットであるNagaNLPを紹介する。
専門家誘導型LLM(Gemini)が候補コーパスを生成し,それを改良し,ネイティブスピーカーで注釈を付けるマルチステージパイプラインについて述べる。
この合成ハイブリッドアプローチは、10K対の会話データセットと、基礎的なタスクのための高品質な注釈付きコーパスを得た。
本手法の有効性を評価するため,識別モデルと生成モデルの両方を訓練した。
我々の微調整されたXLM-RoBERTaベースモデルは、Speechタグ付けにおける93.81\%の精度 (0.90 F1-Macro) と Named Entity Recognition における 0.75 F1-Macro を達成し、強力なゼロショットベースラインを大幅に上回る新しいベンチマークを確立する。
さらに,Llama-3.2-3BインストラクタモデルであるNagaLLaMAを微調整し,会話タスクの性能を向上し,パープレキシティの3.85を達成した(96.76)。
我々は、すべてのデータセット、モデル、コードを含むNagaNLPツールキットをリリースし、これまで観測されていなかった言語の基礎リソースと、他の低リソースコンテキストにおけるデータの不足を軽減する再現可能なフレームワークを提供する。
関連論文リスト
- HausaMovieReview: A Benchmark Dataset for Sentiment Analysis in Low-Resource African Language [1.3465808629549525]
本稿では,Hausaにおける5000のYouTubeコメントとコードスイッチによる英語を含む新しいベンチマークデータセットを提案する。
このデータセットを用いて、古典モデルと微調整変換器モデルの比較分析を行う。
精度が89.72%、F1スコアが89.60%のDecision Tree分類器は、ディープラーニングモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-17T22:57:21Z) - Culturally-Nuanced Story Generation for Reasoning in Low-Resource Languages: The Case of Javanese and Sundanese [12.208154616426052]
大規模言語モデル(LLM)がジャワ語とスンダ語で文化的にニュアンスな物語を生成できるかどうかを検証する。
筆者らは,(1) LLM支援ストーリーに文化的手がかりを付与し,(2)インドネシアのベンチマークから機械翻訳を行い,(3)ネイティブなストーリーを提示する3つのデータ生成戦略を比較した。
各データセットのモデルを微調整し、分類と生成のための人為的なテストセットで評価する。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Transformer-Based Contextualized Language Models Joint with Neural Networks for Natural Language Inference in Vietnamese [1.7457686843484872]
文脈型言語モデル(CLM)とニューラルネットワークの様々な組み合わせを用いて実験を行う。
CLMとニューラルネットワークのジョイントアプローチはシンプルだが,高品質な性能を実現することができる。
論文 参考訳(メタデータ) (2024-11-20T15:46:48Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。