論文の概要: Making Large Language Models Speak Tulu: Structured Prompting for an Extremely Low-Resource Language
- arxiv url: http://arxiv.org/abs/2602.15378v1
- Date: Tue, 17 Feb 2026 06:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.994314
- Title: Making Large Language Models Speak Tulu: Structured Prompting for an Extremely Low-Resource Language
- Title(参考訳): 大規模言語モデルの構築 - 極低リソース言語のための構造化プロンプト
- Authors: Prathamesh Devadiga, Paras Chopra,
- Abstract要約: 制御プロンプト下では,構造化プロンプトだけで基本的な会話能力を引き出すことができるかを検討する。
我々は、明示的な文法文書、関連する言語からの高確率トークンの抑制のための負の制約、ロマン化標準化、そして自己再生による品質制御された合成データ生成を組み合わせる。
本手法は,85%の精度で語彙汚染を80%から5%に低減する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can large language models converse in languages virtually absent from their training data? We investigate this question through a case study on Tulu, a Dravidian language with over 2 million speakers but minimal digital presence. Rather than fine-tuning an LLM, we examine whether structured prompts alone can elicit basic conversational ability under controlled prompting. We systematically tackle various challenges posed by absence of training data for Tulu by combining explicit grammar documentation, negative constraints to suppress high-probability tokens from related languages, romanization standardization, and quality-controlled synthetic data generation via self-play. Evaluated on a manually curated held-out set across three LLMs (Gemini 2.0 Flash, GPT-4o, Llama 3.1 70B) and validated by native speakers, our approach reduces vocabulary contamination from 80% to 5% while achieving 85% grammatical accuracy. Cross-model analysis reveals that negative constraints provide consistent improvements (12--18 percentage points), while grammar documentation effects vary by model architecture (8--22 points).
- Abstract(参考訳): 大規模な言語モデルは、トレーニングデータから事実上欠落している言語で会話できるのか?
本研究では,200万人以上の話者がいるが,最小限のデジタルプレゼンスを持つドラヴィダ語であるTuluのケーススタディを通じて,この問題を考察する。
LLMを微調整するよりも、制御されたプロンプトの下では、構造化プロンプトだけで基本的な会話能力を引き出すことができるかどうかを検討する。
我々は、明示的な文法文書、関連する言語からの高確率トークンを抑えるための負の制約、ロマン化標準化、そして自己再生による品質制御された合成データ生成を組み合わせることで、Tuluのトレーニングデータがないことによって生じる様々な課題を体系的に解決する。
LLM(Gemini 2.0 Flash, GPT-4o, Llama 3.1 70B)を手動で調整し, ネイティブ話者による検証を行い, 語彙汚染を80%から5%に低減し, 85%の文法精度を実現した。
クロスモデル解析では、負の制約が一貫した改善(12-18パーセント)をもたらすのに対して、文法ドキュメントの効果はモデルアーキテクチャ(8-22ポイント)によって異なることが示されている。
関連論文リスト
- BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。
大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。
我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-11-13T14:12:44Z) - Towards Quantifying and Reducing Language Mismatch Effects in Cross-Lingual Speech Anti-Spoofing [21.214330523348046]
既存のアンチスプーフィングデータセットは主に英語で書かれている。
多言語データセットの取得の高コストは、トレーニング言語に依存しないモデルを妨げる。
我々は、TS(ACCENT)によるアクセントベースのデータ拡張という革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-12T18:18:22Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。