論文の概要: Towards Open Foundation Language Model and Corpus for Macedonian: A Low-Resource Language
- arxiv url: http://arxiv.org/abs/2506.09560v1
- Date: Wed, 11 Jun 2025 09:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.831992
- Title: Towards Open Foundation Language Model and Corpus for Macedonian: A Low-Resource Language
- Title(参考訳): Open Foundation Language Model and Corpus for Macedonian: a Low-Resource Language
- Authors: Stefan Krsteski, Matea Tashkovska, Borjan Sazdov, Hristijan Gjoreski, Branislav Gerazov,
- Abstract要約: LLM(Large Language Models)の採用を促進するリソースを作成します。
これまでにマケドニア最大のコーパスを収集し、40GBのテキストデータと3.5Bの単語を収集した。
我々は、キュレートされたデータセットに基づいて、最先端の8B-パラメータモデルであるinter domestic-yakをトレーニングし、8つのベースラインモデルに対して評価する。
- 参考スコア(独自算出の注目度): 4.276396344868335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increase in technological adoption worldwide comes with demands for novel tools to be used by the general population. Large Language Models (LLMs) provide a great opportunity in this respect, but their capabilities remain limited for low-resource languages, restricting applications in countries where such languages are spoken. We create several resources to facilitate the adoption of LLMs and to support research advancements for Macedonian. We collect the largest Macedonian corpus to date, consisting of 40GB of textual data and totaling 3.5B words. To support conversational applications, we collect a 106k-instance instruction dataset, carefully built to be culturally grounded. For evaluation, we construct a Macedonian evaluation suite covering seven benchmarks. Finally, we train domestic-yak, a state-of-the-art 8B-parameter model, on our curated datasets and evaluate it against eight baseline models using the newly constructed benchmark suite. Our model outperforms all existing models in the 8B parameter range across all benchmarks, and achieves performance comparable to models up to 10x larger. Furthermore, a qualitative analysis with native speakers reveals that our model is preferred over larger counterparts, receiving higher ratings for grammatical correctness and cultural appropriateness. All datasets, code, and model weights are openly released, setting a foundation for advancing LLMs in similarly underrepresented languages. These resources are publicly available at github.com/LVSTCK for source code, and at huggingface.co/LVSTCK for pretrained model weights and data.
- Abstract(参考訳): 世界における技術普及の進展は、一般市民が使用する新しいツールの需要が伴う。
大きな言語モデル(LLM)は、この点において大きな機会を提供するが、その能力は低リソース言語に限られており、そのような言語が話されている国ではアプリケーションを制限する。
我々は,LLMの採用を促進し,マケドニアの研究開発を支援するために,いくつかの資源を創出する。
これまでにマケドニア最大のコーパスを収集し、40GBのテキストデータと3.5Bの単語を収集した。
対話型アプリケーションを支援するため,文化的な基盤として慎重に構築された106k-instanceインストラクションデータセットを収集する。
評価のために、7つのベンチマークをカバーするマケドニアの評価スイートを構築した。
最後に、我々のキュレートされたデータセットに基づいて、最先端の8Bパラメーターモデルであるinter domestic-yakをトレーニングし、新しく構築されたベンチマークスイートを使用して8つのベースラインモデルに対して評価する。
我々のモデルは、すべてのベンチマークで8Bパラメータの既存のモデルよりも優れており、最大10倍のモデルに匹敵するパフォーマンスを実現しています。
さらに、母語話者による質的分析により、我々のモデルはより大きな話者よりも好まれており、文法的正当性や文化的適切性に対する高い評価を受けていることが明らかとなった。
すべてのデータセット、コード、モデルウェイトが公開され、LLMを同様に表現不足の言語で前進させるための基盤が設定されている。
これらのリソースは、ソースコードのためにgithub.com/LVSTCKで公開されており、事前訓練されたモデルの重みとデータのためにuggingface.co/LVSTCKで利用可能である。
関連論文リスト
- Instructing Large Language Models for Low-Resource Languages: A Systematic Study for Basque [34.70526082204771]
ユーザ意図で言語モデルを教えるには、限られた言語セットでしか利用できない大規模な命令データセットが必要である。
対象言語におけるコーパス、既存のオープンウェイトな多言語ベースと指示されたバックボーンLLM、および指示されたバックボーンから合成された命令のみを利用できる低リソース言語に対する現実的なシナリオを仮定する。
論文 参考訳(メタデータ) (2025-06-09T09:54:47Z) - Generative Model for Less-Resourced Language with 1 billion parameters [0.0]
GaMS 1B - 10億のパラメータを持つスロベニアの生成モデル。
我々はスロベニア語、クロアチア語、英語に適応した新しいトークンライザを開発した。
我々は,Slovene ベンチマークスイートと生成文単純化タスク SENTA から,いくつかの分類データセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-10-09T13:59:34Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。