論文の概要: Meltemi: The first open Large Language Model for Greek
- arxiv url: http://arxiv.org/abs/2407.20743v1
- Date: Tue, 30 Jul 2024 11:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:19:48.834846
- Title: Meltemi: The first open Large Language Model for Greek
- Title(参考訳): Meltemi: ギリシャ初のオープンな大規模言語モデル
- Authors: Leon Voukoutis, Dimitris Roussis, Georgios Paraskevopoulos, Sokratis Sofianopoulos, Prokopis Prokopidis, Vassilis Papavasileiou, Athanasios Katsamanis, Stelios Piperidis, Vassilis Katsouros,
- Abstract要約: ギリシャ語の最初のオープンな大言語モデルであるメルテミ7Bの開発と能力について述べる。
メルテミ7Bは70億のパラメータを持ち、400億のトークン・ギリシャ・コーパスで訓練されている。
我々は,Meltemi 7B Instructという名前のチャットモデルの命令チューニングに使用されているギリシア語の命令コーパスを翻訳し,キュレートした。
- 参考スコア(独自算出の注目度): 6.922876845922809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe the development and capabilities of Meltemi 7B, the first open Large Language Model for the Greek language. Meltemi 7B has 7 billion parameters and is trained on a 40 billion token Greek corpus. For the development of Meltemi 7B, we adapt Mistral, by continuous pretraining on the Greek Corpus. Meltemi 7B contains up-to-date information up to September 2023. Furthermore, we have translated and curated a Greek instruction corpus, which has been used for the instruction-tuning of a chat model, named Meltemi 7B Instruct. Special care has been given to the alignment and the removal of toxic content for the Meltemi 7B Instruct. The developed models are evaluated on a broad set of collected evaluation corpora, and examples of prompts and responses are presented. Both Meltemi 7B and Meltemi 7B Instruct are available at https://huggingface.co/ilsp under the Apache 2.0 license.
- Abstract(参考訳): ギリシャ語の最初のオープンな大言語モデルであるメルテミ7Bの開発と能力について述べる。
メルテミ7Bは70億のパラメータを持ち、400億のトークン・ギリシャ・コーパスで訓練されている。
メルテミ7Bの開発には、ギリシャのコーパスで継続的に事前訓練を行うことでミストラルを適応させる。
メルテミ7Bは2023年9月までの最新の情報を含んでいる。
さらに,Meltemi 7B Instructという名前のチャットモデルの命令チューニングに使用されているギリシャ語の命令コーパスを翻訳し,キュレートした。
メルテミ7Bインストラクションのアライメントと有害物質の除去には特別に注意が払われている。
得られた評価コーパスの集合を用いて, 開発したモデルの評価を行い, プロンプトと応答の例を示す。
Meltemi 7B と Meltemi 7B Instruct は Apache 2.0 ライセンス下でhttps://huggingface.co/ilsp で公開されている。
関連論文リスト
- OLMoE: Open Mixture-of-Experts Language Models [180.19698806071867]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。
OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。
5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文 参考訳(メタデータ) (2024-09-03T17:08:20Z) - LLM Pruning and Distillation in Practice: The Minitron Approach [61.56557874432008]
Llama 3.1 8B および Mistral NeMo 12B モデルを 4B および 8B パラメータに圧縮する。
1)深い刈り込みと(2)隠れた/保持/MLP(幅)刈り込みという2つの異なる刈り出し方を探る。
このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8Bモデルを生成する。
論文 参考訳(メタデータ) (2024-08-21T17:38:48Z) - A Teacher Is Worth A Million Instructions [4.322454918650575]
提案手法を用いた微調整Mistral 7Bと2x7Bは、7Bおよび13B以上のパラメータを持つ最先端言語モデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-27T11:48:25Z) - Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People [68.59917533894608]
我々は6つの最も広く話されている言語にまたがる医療用LLMの開発を目指しており、世界人口は610億人である。
この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。
トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2024-03-06T11:56:02Z) - Breeze-7B Technical Report [16.765359642022272]
Breeze-7BはMistral-7Bをベースにしたオープンソースの言語モデルである。
本稿では,Breeze-7Bモデルの事前訓練,微調整,評価段階について概説する。
論文 参考訳(メタデータ) (2024-03-05T07:08:06Z) - Large Malaysian Language Model Based on Mistral for Enhanced Local
Language Understanding [0.0]
大規模言語モデルであるMistral 7Bの事前学習の進歩を示す。
コンテクスト長4096と32768のトークンを持つモデルをリリースし、16384のコンテクスト長調整モデルでさらなる性能向上を図る。
マレーシアのミストラルがタタバハサ(マレー文法)テストセットで優れていることを示す説得力のある結果を示す。
論文 参考訳(メタデータ) (2024-01-24T16:21:28Z) - Mistral 7B [62.17530433867458]
Mistral 7Bはすべての評価ベンチマークでLlama 2 13B、推論、数学、コード生成でLlama 1 34Bを上回っている。
また、命令に従うように微調整されたモデルも提供します。 Mistral 7B -- Instructは、Llama 2 13Bを越え、人間と自動化ベンチマークの両方でチャットモデルを提供します。
論文 参考訳(メタデータ) (2023-10-10T17:54:58Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - GreekBART: The First Pretrained Greek Sequence-to-Sequence Model [13.429669368275318]
我々は,BARTベースアーキテクチャをベースとした最初のSeq2SeqモデルであるA GreekBARTを紹介し,大規模なギリシャ語コーパスを事前訓練する。
我々は,BART-random, Greek-BERT, XLM-Rを様々な識別課題で評価し,比較した。
論文 参考訳(メタデータ) (2023-04-03T10:48:51Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。