論文の概要: OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model
Pre-trained from Scratch
- arxiv url: http://arxiv.org/abs/2309.10706v1
- Date: Tue, 19 Sep 2023 15:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:42:33.323409
- Title: OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model
Pre-trained from Scratch
- Title(参考訳): OpenBA: Scratchから事前訓練された15Bバイリンガル非対称seq2seqモデル
- Authors: Juntao Li, Zecheng Tang, Yuyang Ding, Pinzheng Wang, Pei Guo, Wangjie
You, Dan Qiao, Wenliang Chen, Guohong Fu, Qiaoming Zhu, Guodong Zhou, Min
Zhang
- Abstract要約: OpenBAは、オープンソースの15Bバイリンガルな非対称セq2seqモデルである。
OpenBAを効果的かつ効率的な技術で強化し、3段階のトレーニング戦略を採用します。
私たちのソリューションは、380Bトークンだけで非常に競争力のあるパフォーマンスを実現できます。
- 参考スコア(独自算出の注目度): 41.45002811060755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with billions of parameters have demonstrated
outstanding performance on various natural language processing tasks. This
report presents OpenBA, an open-sourced 15B bilingual asymmetric seq2seq model,
to contribute an LLM variant to the Chinese-oriented open-source model
community. We enhance OpenBA with effective and efficient techniques as well as
adopt a three-stage training strategy to train the model from scratch. Our
solution can also achieve very competitive performance with only 380B tokens,
which is better than LLaMA-70B on the BELEBELE benchmark, BLOOM-176B on the
MMLU benchmark, GLM-130B on the C-Eval (hard) benchmark. This report provides
the main details to pre-train an analogous model, including pre-training data
processing, Bilingual Flan data collection, the empirical observations that
inspire our model architecture design, training objectives of different stages,
and other enhancement techniques. We have refactored our code to follow the
design principles of the Huggingface Transformers Library, making it more
convenient for developers to use, and released checkpoints of different
training stages at https://huggingface.co/openBA. More details of our project
are available at https://github.com/OpenNLG/openBA.git.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本報告は,中国指向のオープンソースモデルコミュニティにllmの変種を提供するために,オープンソース15bのバイリンガル非対称seq2seqモデルであるopenbaを提案する。
OpenBAを効果的かつ効率的な技術で強化するとともに,スクラッチからモデルをトレーニングするための3段階のトレーニング戦略を採用しています。
また, BELEBELEベンチマークではLLaMA-70B, MMLUベンチマークではBLOOM-176B, C-Eval(hard)ベンチマークではGLM-130Bよりも優れた380Bトークンで非常に競合的な性能が得られる。
このレポートは、データ処理の事前トレーニング、バイリンガルflanデータ収集、モデルアーキテクチャ設計を刺激する経験的観察、異なるステージのトレーニング目標、その他の強化技術を含む、類似モデルの事前トレーニングに関する主な詳細を提供する。
私たちは、Huggingface Transformers Libraryの設計原則に従うようにコードをリファクタリングし、開発者がより便利に使えるようにし、https://huggingface.co/openBA.comで異なるトレーニングステージのチェックポイントをリリースしました。
プロジェクトの詳細はhttps://github.com/OpenNLG/openBA.git.comで確認できる。
関連論文リスト
- LBC: Language-Based-Classifier for Out-Of-Variable Generalization [14.033963471962823]
大規模言語モデル(LLM)は、応答生成のような自然言語処理タスクにおいて大きな成功を収めている。
LLMの事前学習された知識により、追加のトレーニングなしでテストに現れる新しい変数を解釈できることがわかった。
本稿では,LBC(Language-Based-Classifier)を提案する。
論文 参考訳(メタデータ) (2024-08-20T15:05:02Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning [47.37717859805702]
マルチステージ圧縮と15B OpenBAモデルからの継続事前学習から派生した3.4BモデルであるOpenBA-V2を紹介する。
OpenBA-V2は、より多くのデータ、より柔軟な訓練目標、レイヤープルーニング、ニューラルプルーニング、ボキャブラリプルーニングといった技術を利用して、パフォーマンス損失を最小限に抑えた77.3%の圧縮速度を達成する。
論文 参考訳(メタデータ) (2024-05-09T17:53:28Z) - OpenELM: An Efficient Language Model Family with Open Training and Inference Framework [26.741510071520658]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。
パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文 参考訳(メタデータ) (2024-04-22T23:12:03Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-02T12:45:34Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。