論文の概要: Language Resources for Dutch Large Language Modelling
- arxiv url: http://arxiv.org/abs/2312.12852v1
- Date: Wed, 20 Dec 2023 09:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:14:06.914946
- Title: Language Resources for Dutch Large Language Modelling
- Title(参考訳): オランダ語大言語モデリングのための言語資源
- Authors: Bram Vanroy
- Abstract要約: Llama 2 13Bモデルの微調整版を2種類導入する。
我々は、複数の世代タスクにおける(Dutch)モデルのパフォーマンスを追跡するためのリーダーボードを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid expansion of types of large language models, there remains
a notable gap in models specifically designed for the Dutch language. This gap
is not only a shortage in terms of pretrained Dutch models but also in terms of
data, and benchmarks and leaderboards. This work provides a small step to
improve the situation. First, we introduce two fine-tuned variants of the Llama
2 13B model. We first fine-tuned Llama 2 using Dutch-specific web-crawled data
and subsequently refined this model further on multiple synthetic instruction
and chat datasets. These datasets as well as the model weights are made
available. In addition, we provide a leaderboard to keep track of the
performance of (Dutch) models on a number of generation tasks, and we include
results of a number of state-of-the-art models, including our own. Finally we
provide a critical conclusion on what we believe is needed to push forward
Dutch language models and the whole eco-system around the models.
- Abstract(参考訳): 大規模言語モデルのタイプが急速に拡大したにもかかわらず、オランダ語用に特別に設計されたモデルには注目すべきギャップが残っている。
このギャップは、事前訓練されたオランダのモデルだけでなく、データ、ベンチマーク、リーダーボードも不足している。
この仕事は状況を改善するための小さなステップを提供します。
まず,llama 2 13bモデルの微調整版について紹介する。
まずオランダ固有のWebcrawledデータを用いてLlama 2を微調整し、その後、複数の合成命令とチャットデータセットに基づいてさらに改良した。
これらのデータセットとモデルの重み付けが利用可能である。
さらに、私たちは、複数の世代タスクにおける(Dutch)モデルのパフォーマンスを追跡するためのリーダーボードを提供しています。
最後に、オランダ語モデルとモデルを取り巻くエコシステム全体を推進するために必要なものについて、批判的な結論を与えます。
関連論文リスト
- CamemBERT 2.0: A Smarter French Language Model Aged to Perfection [14.265650708194789]
これらの課題に対処するために,CamemBERTのベースモデルであるCamemBERTav2とCamemBERTv2の2つの新バージョンを紹介した。
どちらのモデルも、コンテキスト長が長く、トークン化ツールが更新された、はるかに大きくて最新のデータセットでトレーニングされている。
以上の結果から,これらの更新モデルは従来のモデルよりも大幅に優れており,現代のNLPシステムに有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2024-11-13T18:49:35Z) - Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。
我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。
また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文 参考訳(メタデータ) (2024-04-08T11:55:44Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。
我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。
我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文 参考訳(メタデータ) (2023-11-03T08:05:04Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Confidence-based Ensembles of End-to-End Speech Recognition Models [71.65982591023581]
5つの単言語モデルの信頼に基づくアンサンブルは、専用言語識別ブロックを介してモデル選択を行うシステムより優れていることを示す。
また、ベースモデルと適応モデルを組み合わせることで、オリジナルデータとターゲットデータの両方で強力な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-27T23:13:43Z) - DUMB: A Benchmark for Smart Evaluation of Dutch Models [23.811515104842826]
オランダのモデルベンチマークであるDUMBを紹介します。このベンチマークには、低、中、高リソースタスクのためのさまざまなデータセットが含まれています。
RER(Relative Error Reduction)は、言語モデルのDUMB性能を強力なベースラインと比較する。
最高性能はDeBERTaV3(大型)、XLM-R(大型)、mDeBERTaV3(ベース)である。
論文 参考訳(メタデータ) (2023-05-22T13:27:37Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。