論文の概要: TharuChat: Bootstrapping Large Language Models for a Low-Resource Language via Synthetic Data and Human Validation
- arxiv url: http://arxiv.org/abs/2603.17220v1
- Date: Tue, 17 Mar 2026 23:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.449571
- Title: TharuChat: Bootstrapping Large Language Models for a Low-Resource Language via Synthetic Data and Human Validation
- Title(参考訳): TharuChat: 合成データと人間の検証による低リソース言語のための大規模言語モデルのブートストラップ
- Authors: Prajwal Panth, Agniva Maiti,
- Abstract要約: トゥル語はネパールとインドのテライ帯で約170万人が話しているインド・アーリア語である。
豊かな口承の伝統にもかかわらず、トゥルは厳しいデータ不足と言語的な断片化に悩まされている。
本稿では,この排除に対処する特別指導フォローモデルであるTharu-LLaMA (3B)について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of Large Language Models (LLMs) has created a profound digital divide, effectively excluding indigenous languages of the Global South from the AI revolution. The Tharu language, an Indo-Aryan vernacular spoken by approximately 1.7 million people across the Terai belt of Nepal and India, exemplifies this crisis. Despite a rich oral tradition, Tharu suffers from severe data scarcity and linguistic fragmentation, causing state-of-the-art multilingual models to routinely "hallucinate" or default to dominant high-resource neighbors like Hindi and Nepali due to contamination in pre-training corpora. This paper presents Tharu-LLaMA (3B), a specialized instruction-following model designed to address this exclusion. We introduce TharuChat, a novel dataset constructed via a LLM-to-Human bootstrapping pipeline. We utilized prompt-engineered Gemini models, fed with Rana Tharu grammar and folklore, to synthesize training data. Unlike curated gold-standard corpora, TharuChat reflects the noisy, heterogeneous linguistic reality of the region: it is predominantly anchored in Rana Tharu (~70%) while integrating elements of Dangaura and Kochila dialects. We provide a transparent analysis of the dataset's limitations, including dialectal code-mixing and residual Awadhi/Hindi influence. Through a rigorous empirical ablation study, we demonstrate that despite these imperfections, small-scale synthetic data is highly effective, increasing the dataset volume from 25% to 100% results in a linear reduction in perplexity from 6.42 to 2.88. The resulting model serves as a proof-of-concept for the preservation of under-resourced Himalayan languages via generative AI, achievable on consumer-grade hardware.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な普及は、AI革命からグローバル・サウスの先住民言語を効果的に排除し、深いデジタル分割を生み出した。
ネパールとインドのテライ帯で約170万人が話していたインド・アーリア語族であるトゥル語は、この危機を例証している。
豊かな口承の伝統にもかかわらず、トゥルは厳しいデータ不足と言語的断片化に悩まされ、訓練前のコーパスの汚染により、最先端の多言語モデルが日常的に「ハロシン化」またはデフォルトとなり、ヒンディー語やネパール語のような支配的な高資源の隣人にデフォルトとなった。
本稿では,この排除に対処する特別指導フォローモデルであるTharu-LLaMA (3B)について述べる。
LLM-to-Humanブートストラップパイプラインによって構築された新しいデータセットであるTharuChatを紹介する。
我々は,ラーナ・チュル文法と民間伝承を取り入れたジェミニモデルを用いて,学習データを合成した。
金標準コーパスとは異なり、TharuChatはこの地域の騒々しく異質な言語的現実を反映しており、主にRana Tharu (~70%)に定着し、DangauraとKochilaの方言の要素を統合する。
我々は、方言のコードミキシングやアワディー/ヒンディー語の影響の残余を含むデータセットの限界を透過的に分析する。
厳密な経験的アブレーション研究を通じて、これらの不完全性にもかかわらず、小規模合成データが非常に効果的であることを示し、データセットの体積を25%から100%に増加させ、過度を6.42から2.88に線形に減少させることを示した。
結果として得られたモデルは、コンシューマグレードのハードウェア上で達成可能な生成AIを介して、未ソースのヒマラヤ語を保存するための概念実証として機能する。
関連論文リスト
- Making Large Language Models Speak Tulu: Structured Prompting for an Extremely Low-Resource Language [1.0742675209112622]
制御プロンプト下では,構造化プロンプトだけで基本的な会話能力を引き出すことができるかを検討する。
我々は、明示的な文法文書、関連する言語からの高確率トークンの抑制のための負の制約、ロマン化標準化、そして自己再生による品質制御された合成データ生成を組み合わせる。
本手法は,85%の精度で語彙汚染を80%から5%に低減する。
論文 参考訳(メタデータ) (2026-02-17T06:20:09Z) - Exploring Cross-Lingual Knowledge Transfer via Transliteration-Based MLM Fine-Tuning for Critically Low-resource Chakma Language [1.4206084598312039]
限られたデータしか持たないインド・アーリア語として、チャクマは言語モデルにおいてほとんど表現されていない。
本稿では,チャクマ文学からキュレートされ,母語話者によって検証された,文脈的にコヒーレントなバングラ文字翻訳チャクマの新たなコーパスを紹介する。
実験により、微調整された多言語モデルは、バングラ文字のチャクマに適応する際、事前訓練されたモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-10-10T06:07:14Z) - Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages [0.0]
本稿では,低リソース言語における音声認識(ASR)の性能向上を目的とした,新しい多段階微調整手法を提案する。
本稿では,言語的に類似した言語にモデルを逐次適応させることにより,限られたデジタルリソースを持つ言語を対象としたASRモデルを構築することを目的とする。
私たちは、南インドの西ガーツで約1万人が話していたドラヴィダ語であるマラサール語でこれを実験した。
論文 参考訳(メタデータ) (2024-11-07T09:57:57Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。