論文の概要: Nemotron-4 15B Technical Report
- arxiv url: http://arxiv.org/abs/2402.16819v2
- Date: Tue, 27 Feb 2024 15:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:43:50.626468
- Title: Nemotron-4 15B Technical Report
- Title(参考訳): nemotron-4 15b技術報告
- Authors: Jupinder Parmar and Shrimai Prabhumoye and Joseph Jennings and Mostofa
Patwary and Sandeep Subramanian and Dan Su and Chen Zhu and Deepak Narayanan
and Aastha Jhunjhunwala and Ayush Dattagupta and Vibhu Jawa and Jiwei Liu and
Ameya Mahabaleshwarkar and Osvald Nitski and Annika Brundyn and James Maki
and Miguel Martinez and Jiaxuan You and John Kamalu and Patrick LeGresley and
Denys Fridman and Jared Casper and Ashwath Aithal and Oleksii Kuchaiev and
Mohammad Shoeybi and Jonathan Cohen and Bryan Catanzaro
- Abstract要約: ネモトロン415Bは8兆個のテキストトークンで訓練された多言語言語モデルである。
同様のサイズのモデルで最高の多言語機能を示し、さらに4倍以上のモデル、特に多言語タスクに特化しているモデルよりも優れています。
- 参考スコア(独自算出の注目度): 44.51049723484507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Nemotron-4 15B, a 15-billion-parameter large multilingual
language model trained on 8 trillion text tokens. Nemotron-4 15B demonstrates
strong performance when assessed on English, multilingual, and coding tasks: it
outperforms all existing similarly-sized open models on 4 out of 7 downstream
evaluation areas and achieves competitive performance to the leading open
models in the remaining ones. Specifically, Nemotron-4 15B exhibits the best
multilingual capabilities of all similarly-sized models, even outperforming
models over four times larger and those explicitly specialized for multilingual
tasks.
- Abstract(参考訳): 8兆のテキストトークンで訓練された15億パラメータの大規模多言語モデルであるnemotron-4 15bを紹介する。
Nemotron-4 15Bは、英語、多言語、コーディングタスクでの評価において、強力な性能を示しており、7つの下流評価領域のうち4つで、同様の大きさのオープンモデルを全て上回り、残りの領域で主要なオープンモデルと競合する性能を達成している。
具体的には、Nemotron-4 15Bは、同じ大きさの全てのモデルの最高の多言語能力を示し、さらに4倍のモデル、特に多言語タスクに特化しているモデルよりも優れています。
関連論文リスト
- Do Multilingual Large Language Models Mitigate Stereotype Bias? [9.31741279000585]
この研究は、英語、ドイツ語、フランス語、イタリア語、スペイン語で同じ大きさの6つのLLMを体系的に訓練する。
単言語モデルと比較して,多言語モデルの方がバイアスの低いだけでなく,予測精度も優れていることが観察された。
論文 参考訳(メタデータ) (2024-07-08T08:46:50Z) - Sailor: Open Language Models for South-East Asia [31.8422378772881]
Sailor(セイラー)は、東南アジア(SEA)言語向けに作られたオープン言語モデルである。
セイラーモデルは200Bから400Bのトークンを受け取り、主に英語、中国語、ベトナム語、タイ語、インドネシア語、マレー語、ラオス語をカバーしている。
論文 参考訳(メタデータ) (2024-04-04T17:31:32Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Are Pretrained Multilingual Models Equally Fair Across Languages? [0.0]
この研究は多言語モデルの群フェアネスを調査し、これらのモデルが言語間で等しく公平かどうかを問う。
我々は、MozArt上の3つの多言語モデル(mBERT、XLM-R、mT5)を評価し、これらのモデルが4つの対象言語で異なるグループ格差を示すことを示す。
論文 参考訳(メタデータ) (2022-10-11T13:59:19Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Probing Multilingual Language Models for Discourse [0.0]
XLM-RoBERTaファミリーのモデルが常に最高のパフォーマンスを示していることが分かりました。
また, モデル蒸留は, 文表現の言語間移動能力に悪影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-09T06:34:21Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。