論文の概要: Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study
- arxiv url: http://arxiv.org/abs/2510.22747v1
- Date: Sun, 26 Oct 2025 16:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.35326
- Title: Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study
- Title(参考訳): 大規模言語モデルの低リソースダイアレクト適応:フランス語ダイアレクトケーススタディ
- Authors: Eeham Khan, Firas Saidani, Owen Van Esbroeck, Richard Khoury, Leila Kosseim,
- Abstract要約: タイトなデータと計算予算に基づく方言学習における継続事前学習(CPT)の利用について検討した。
我々は、非常に小さなデータセットを使用してQu'ebecフランス語方言に3つの大きな言語モデルを適用し、それらをCOLEスイートでベンチマークする。
実験では, モデルパラメータの1%以下を更新した名声言語ベンチマークにおいて, 最小回帰によるマイノリティ弁証法の改良を実証した。
- 参考スコア(独自算出の注目度): 0.043496401697112684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the widespread adoption of large language models (LLMs), their strongest capabilities remain largely confined to a small number of high-resource languages for which there is abundant training data. Recently, continual pre-training (CPT) has emerged as a means to fine-tune these models to low-resource regional dialects. In this paper, we study the use of CPT for dialect learning under tight data and compute budgets. Using low-rank adaptation (LoRA) and compute-efficient continual pre-training, we adapt three LLMs to the Qu\'ebec French dialect using a very small dataset and benchmark them on the COLE suite. Our experiments demonstrate an improvement on the minority dialect benchmarks with minimal regression on the prestige language benchmarks with under 1% of model parameters updated. Analysis of the results demonstrate that gains are highly contingent on corpus composition. These findings indicate that CPT with parameter-efficient fine-tuning (PEFT) can narrow the dialect gap by providing cost-effective and sustainable language resource creation, expanding high-quality LLM access to minority linguistic communities. We release the first Qu\'ebec French LLMs on HuggingFace.
- Abstract(参考訳): 大きな言語モデル(LLM)が広く採用されているにもかかわらず、その強力な能力は、トレーニングデータが豊富にある少数の高リソース言語に限られている。
近年,これらのモデルを低資源地域方言に微調整する手段として,CPT (Continuousal Pre-training) が出現している。
本稿では,厳密なデータと計算予算に基づく方言学習におけるCPTの利用について検討する。
低ランク適応(LoRA)と計算効率のよい継続事前学習を用いて、非常に小さなデータセットを用いて3つのLLMをQu\'ebecフランス語方言に適応させ、COLEスイートでそれらをベンチマークする。
実験では, モデルパラメータの1%以下を更新した名声言語ベンチマークにおいて, 最小回帰によるマイノリティ弁証法の改良を実証した。
その結果,ゲインはコーパス組成に強く依存していることが判明した。
これらの結果から,パラメータ効率のよい細調整(PEFT)によるCPTは,低コストで持続可能な言語資源の創出によって方言のギャップを狭め,少数言語コミュニティへの高品質なLLMアクセスを拡大できることが示唆された。
われわれはHuggingFace上で最初のQu\'ebec French LLMをリリースする。
関連論文リスト
- Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z) - Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance [9.624005980086707]
最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。
我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:42:46Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。
さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-12-13T16:13:35Z) - Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。
52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文 参考訳(メタデータ) (2024-11-27T18:14:38Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。