論文の概要: Orion-14B: Open-source Multilingual Large Language Models
- arxiv url: http://arxiv.org/abs/2401.12246v1
- Date: Sat, 20 Jan 2024 12:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:08:07.940545
- Title: Orion-14B: Open-source Multilingual Large Language Models
- Title(参考訳): Orion-14B: オープンソースの多言語大言語モデル
- Authors: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan,
Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
- Abstract要約: 我々は,140億のパラメータを持つ多言語大言語モデルの集合であるOrion-14Bを紹介する。
データスケジューリング手法を用いて、英語、中国語、日本語、韓国語、その他の言語のテキストから得られた2.5兆トークンの多種多様なコーパスに基づいて基礎モデルを訓練する。
評価の結果,Orion-14Bは様々なタスクにおいて最先端の性能を達成できることがわかった。
- 参考スコア(独自算出の注目度): 15.64206391264917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we introduce Orion-14B, a collection of multilingual large
language models with 14 billion parameters. We utilize a data scheduling
approach to train a foundational model on a diverse corpus of 2.5 trillion
tokens, sourced from texts in English, Chinese, Japanese, Korean, and other
languages. Additionally, we fine-tuned a series of models tailored for
conversational applications and other specific use cases. Our evaluation
results demonstrate that Orion-14B achieves state-of-the-art performance across
a broad spectrum of tasks. We make the Orion-14B model family and its
associated code publicly accessible https://github.com/OrionStarAI/Orion,
aiming to inspire future research and practical applications in the field.
- Abstract(参考訳): 本研究では,140億パラメータを持つ多言語大言語モデルの集まりである orion-14b を紹介する。
英語,中国語,日本語,韓国語,その他の言語のテキストから抽出した,2.5兆トークンの多様なコーパス上で基礎モデルをトレーニングするために,データスケジューリング手法を用いる。
さらに、会話アプリケーションや他の特定のユースケースに適した一連のモデルを微調整しました。
評価の結果,Orion-14Bは様々なタスクにおいて最先端の性能を達成できた。
orion-14bモデルファミリとその関連コードをhttps://github.com/orionstarai/orionで公開しています。
関連論文リスト
- OLMoE: Open Mixture-of-Experts Language Models [180.19698806071867]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。
OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。
5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文 参考訳(メタデータ) (2024-09-03T17:08:20Z) - TeleChat Technical Report [40.93268271825107]
我々は、30億、70億、120億のパラメータを持つ大規模言語モデル(LLM)のコレクションであるTeleChatを提示する。
事前訓練された言語モデルと、人間の好みに合わせて微調整されたチャットモデルが含まれている。
言語理解,数学,推論,コード生成,知識に基づく質問応答など,様々なタスクにおけるTeleChatの性能を評価する。
論文 参考訳(メタデータ) (2024-01-08T10:43:19Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Assessing Translation capabilities of Large Language Models involving
English and Indian Languages [4.067706269490143]
機械翻訳を英語と22のインド語を含む課題として用いて,大規模言語モデルの多言語的機能について検討する。
パラメータ効率のよいLoRAなどの微調整手法と,さらに完全な微調整を併用して,これらの大規模言語モデルを微調整する。
その結果,平均BLEUスコアは13.42,15.93,12.13,12.30,12.07,CHRFスコアは43.98,46.99,42.55,42.42,45.39であった。
論文 参考訳(メタデータ) (2023-11-15T18:58:19Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - cViL: Cross-Lingual Training of Vision-Language Models using Knowledge
Distillation [6.381149074212897]
本稿では、英語のみの視覚言語モデルを用いて、対象言語に対する単言語モデルを訓練するパイプラインを提案する。
日本語とヒンディー語で大規模な視覚的質問応答データセットをリリースする。
我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-06-07T14:46:30Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - A Continuous Space Neural Language Model for Bengali Language [0.4799822253865053]
本稿では, 連続空間ニューラル言語モデル, より具体的にはASGD重量減少型LSTM言語モデル, およびベンガル語で効率的に学習する手法を提案する。
提案したアーキテクチャは、ベンガルの保持されたデータセットにおいて、推論の難易度を51.2まで低くすることで、それよりも優れている。
論文 参考訳(メタデータ) (2020-01-11T14:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。