論文の概要: Efficient Language Adaptive Pre-training: Extending State-of-the-Art
Large Language Models for Polish
- arxiv url: http://arxiv.org/abs/2402.09759v1
- Date: Thu, 15 Feb 2024 07:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:43:51.212642
- Title: Efficient Language Adaptive Pre-training: Extending State-of-the-Art
Large Language Models for Polish
- Title(参考訳): 効率的な言語適応型事前学習:ポーランド語のための最先端大規模言語モデルの拡張
- Authors: Szymon Ruci\'nski
- Abstract要約: 本研究では,ポーランド語文を生成するための基礎言語モデル (LLM) の微調整の可能性について検討する。
最初のステップはLanguage Adaptive Pre-training (LAPT)で、2億7600万のポーランドのトークンからなる3.11GBの高品質データセットをトレーニングする。
訓練されたCurie-7B-v1は、デコーダベースポーランドモデルの中で、最低パープレクティリティ3.02のポーランド語テキストを生成するだけでなく、最高のポーランド語エンコーダ-デコーダモデルの性能と密接に競合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study explores the potential of fine-tuning foundational English Large
Language Models (LLMs) for generating Polish text. The first step involves
Language Adaptive Pre-training (LAPT) on a high-quality dataset of 3.11 GB,
consisting of 276 million Polish tokens. The LAPT is followed by additional
fine-tuning aimed at solving nine KLEJ challenges. Our trained model
Curie-7B-v1 not only generates Polish text with the lowest perplexity of 3.02
among decoder-based Polish models but also closely rivals the performance of
the best Polish encoder-decoder models with a less than 2% gap on 8 out of 9
tasks. Curie-7B-v1 used approximately 2-3% of a typical dataset size to learn
Polish. The LAPT was completed in less than five days using a consumer GPU,
highlighting the method's efficiency. The proficiency of the model in Polish
was significantly enhanced, demonstrating the viability of this approach for
adding new languages to existing LLMs by training just 1.2% of its parameters.
To contribute to the community's collaborative progress, the model has been
released as open-source.
- Abstract(参考訳): 本研究では,ポーランド語文を生成するための基礎言語モデル (LLM) について検討する。
最初のステップはLanguage Adaptive Pre-Training (LAPT)で、2億7600万のポーランドのトークンからなる3.11GBの高品質データセットを提供する。
LAPTに続いて、9つのKLEJ課題を解決するための微調整が加えられた。
訓練されたモデルCurie-7B-v1は、デコーダベースのポーランドモデルの中で、最低パープレクティリティ3.02のポーランド語テキストを生成するだけでなく、9タスク中8タスクで2%未満のギャップを持つポーランド語エンコーダ-デコーダモデルのパフォーマンスと密接に競合する。
Curie-7B-v1は典型的なデータセットの約2-3%を使ってポーランド語を学習した。
LAPTはコンシューマGPUを使用して5日以内で完了し、メソッドの効率性を強調した。
ポーランド語におけるモデルの習熟度は大幅に向上し、パラメータの1.2%をトレーニングすることで既存のLLMに新しい言語を追加するこのアプローチが実現可能であることを示した。
コミュニティの協力的発展に貢献するため、このモデルはオープンソースとしてリリースされた。
関連論文リスト
- Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation [0.0]
Bielik 7B v0.1はポーランド語処理のための生成テキストモデルである。
革新的手法による言語モデル開発における重要な課題に対処する。
RAG ReaderタスクではMistral-7B-v0.1に比べて平均スコアが9パーセント向上した。
また、特にReasoning (6.15/10) と Role-playing (7.83/10) のカテゴリーにおいて、ポーランドのMT-Benchを抜粋している。
論文 参考訳(メタデータ) (2024-10-24T09:16:09Z) - Open Generative Large Language Models for Galician [1.3049334790726996]
大規模言語モデル(LLM)は自然言語処理に変化をもたらした。
しかし、彼らの主に英語中心のトレーニングは、言語間でのバイアスとパフォーマンスの相違につながっている。
この不均衡は、ガリシア語のような低い資源を持つ言語にとって、NLP技術への公平なアクセスを困難にしている。
このギャップを埋めるために、ガリシアに焦点をあてた最初の2つの生成LDMを提示する。
論文 参考訳(メタデータ) (2024-06-19T23:49:56Z) - Evaluation of Few-Shot Learning for Classification Tasks in the Polish Language [0.1534667887016089]
ポーランド語に固有の7つの異なる分類タスクからなる数ショットのベンチマークを導入する。
各種の訓練済み商用およびオープンソースモデルを用いて, 微調整, 線形探索, SetFit, テキスト内学習 (ICL) の0と16ショットを比較した。
ICL は GPT-3.5 や GPT-4 などの商用モデルで最高の性能を達成している。
論文 参考訳(メタデータ) (2024-04-27T08:53:58Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。