論文の概要: Fietje: An open, efficient LLM for Dutch
- arxiv url: http://arxiv.org/abs/2412.15450v1
- Date: Thu, 19 Dec 2024 23:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:21.192024
- Title: Fietje: An open, efficient LLM for Dutch
- Title(参考訳): Fietje: オランダのオープンで効率的なLLM
- Authors: Bram Vanroy,
- Abstract要約: 本稿では、オランダ語用に特別に設計された小型言語モデル(SLM)ファミリーであるFietjeを紹介する。
Fietjeは、より大きな言語モデルと競合する結果を公開してみせた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces Fietje, a family of small language models (SLMs) specifically designed for the Dutch language. The model is based on Phi 2, an English-centric model of 2.7 billion parameters. Fietje demonstrated competitive results with larger language models upon its release. A core emphasis of this work is transparency and reproducibility: Fietje is fully open-source, with model weights, datasets, training, and evaluation code all publicly accessible. The paper discusses the performance of Fietje and many other models on an extensive evaluation suite of benchmarks on reasoning, sentiment analysis, world knowledge, linguistic acceptability and word sense disambiguation. Evaluation results illustrate the rapid progress in the field of LLMs, where recent small models outperform older, larger models that were fine-tuned for Dutch. This trend signals an exciting future for Dutch language processing, suggesting that even compact LLMs are becoming increasingly capable. Furthermore, ongoing and future efforts to adapt LLMs to Dutch are poised to enhance these models even further, broadening their applicability and accessibility. Fietje is only an intermediate step in improving accessibility to language technology for users of the Dutch language.
- Abstract(参考訳): 本稿では、オランダ語用に特別に設計された小型言語モデル(SLM)ファミリーであるFietjeを紹介する。
このモデルは、27億のパラメータからなる英語中心のモデルであるPhi 2に基づいている。
Fietjeは、より大きな言語モデルと競合する結果を公開してみせた。
Fietjeは完全にオープンソースで、モデルウェイト、データセット、トレーニング、評価コードが公開されています。
本稿では、推論、感情分析、世界知識、言語受容性、単語感覚の曖昧さに関するベンチマークの広範な評価スイートにおいて、Fietjeや他の多くのモデルの性能について論じる。
評価結果はLLMの分野での急速な進歩を示し,近年の小型モデルはオランダ語で微調整されたより古い大型モデルよりも優れていた。
この傾向は、オランダ語処理におけるエキサイティングな未来を示唆し、コンパクトなLLMでさえますます有能になりつつあることを示唆している。
さらに、LLMをオランダに適応するための現在および将来の取り組みは、これらのモデルをさらに強化し、適用性とアクセシビリティを拡大する。
Fietjeは、オランダ語ユーザーの言語技術へのアクセシビリティ向上の中間段階にすぎない。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - Introducing Bode: A Fine-Tuned Large Language Model for Portuguese
Prompt-Based Task [1.158680734110387]
この研究は、ポルトガルのプロンプト「ボーデ」のための微調整されたLLaMA 2ベースのモデルを提案する。
In-context Learningを用いたゼロショット手法を用いて分類タスクにおけるこのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-01-05T17:15:01Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Language Resources for Dutch Large Language Modelling [0.0]
Llama 2 13Bモデルの微調整版を2種類導入する。
我々は、複数の世代タスクにおける(Dutch)モデルのパフォーマンスを追跡するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2023-12-20T09:06:06Z) - FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。
我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。
我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文 参考訳(メタデータ) (2023-11-03T08:05:04Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - DUMB: A Benchmark for Smart Evaluation of Dutch Models [23.811515104842826]
オランダのモデルベンチマークであるDUMBを紹介します。このベンチマークには、低、中、高リソースタスクのためのさまざまなデータセットが含まれています。
RER(Relative Error Reduction)は、言語モデルのDUMB性能を強力なベースラインと比較する。
最高性能はDeBERTaV3(大型)、XLM-R(大型)、mDeBERTaV3(ベース)である。
論文 参考訳(メタデータ) (2023-05-22T13:27:37Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。