論文の概要: Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code
- arxiv url: http://arxiv.org/abs/2404.00399v3
- Date: Fri, 27 Dec 2024 03:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:23:52.104108
- Title: Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code
- Title(参考訳): Aurora-M: オープンソースの多言語言語とコードの継続的事前トレーニング
- Authors: Taishi Nakamura, Mayank Mishra, Simone Tedeschi, Yekun Chai, Jason T Stillerman, Felix Friedrich, Prateek Yadav, Tanmay Laud, Vu Minh Chien, Terry Yue Zhuo, Diganta Misra, Ben Bogin, Xuan-Son Vu, Marzena Karpinska, Arnav Varma Dantuluri, Wojciech Kusa, Tommaso Furlanello, Rio Yokota, Niklas Muennighoff, Suhas Pai, Tosin Adewumi, Veronika Laippala, Xiaozhe Yao, Adalberto Junior, Alpay Ariyak, Aleksandr Drozd, Jordan Clive, Kshitij Gupta, Liangyu Chen, Qi Sun, Ken Tsui, Noah Persaud, Nour Fahmy, Tianlong Chen, Mohit Bansal, Nicolo Monti, Tai Dang, Ziyang Luo, Tien-Tung Bui, Roberto Navigli, Virendra Mehta, Matthew Blumberg, Victor May, Huu Nguyen, Sampo Pyysalo,
- Abstract要約: 本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。
これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。
我々はAurora-Mを幅広いタスクや言語で評価し、破滅的な忘れ物に対する頑健さを示した。
- 参考スコア(独自算出の注目度): 123.7406091753529
- License:
- Abstract: Pretrained language models are an integral part of AI applications, but their high computational cost for training limits accessibility. Initiatives such as Bloom and StarCoder aim to democratize access to pretrained models for collaborative community development. Despite these efforts, such models encounter challenges such as limited multilingual capabilities, risks of catastrophic forgetting during continual pretraining, and the high costs of training models from scratch, alongside the need to align with AI safety standards and regulatory frameworks. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435B additional tokens, Aurora-M surpasses 2T tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. We evaluate Aurora-M across a wide range of tasks and languages, showcasing its robustness against catastrophic forgetting and its superior performance in multilingual settings, particularly in safety evaluations. We open-source Aurora-M and its variants to encourage responsible open-source development of large language models at https://huggingface.co/aurora-m.
- Abstract(参考訳): 事前訓練された言語モデルは、AIアプリケーションにおいて不可欠な部分であるが、トレーニングのための高い計算コストはアクセシビリティを制限する。
BloomやStarCoderといったイニシアチブは、共同コミュニティ開発のための事前訓練されたモデルへのアクセスを民主化することを目指している。
これらの努力にもかかわらず、このようなモデルは、制限された多言語機能、継続的な事前トレーニング中の破滅的な忘れ込みのリスク、AIの安全基準や規制フレームワークとの整合性の必要性に加えて、スクラッチからのトレーニングモデルの高コストといった課題に直面している。
本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。
435Bの追加トークンでStarCoderPlusから継続的に事前トレーニングされたAurora-Mは、合計のトレーニングトークン数で2Tトークンを上回っている。
これは、人間がレビューした安全指示に基づいて微調整された最初のオープンソース多言語モデルであり、従来の赤チームの考慮だけでなく、安全・安全・信頼性開発・人工知能の利用に関するビデン・ハリス執行命令(英語版)に明記された具体的な懸念とも一致している。
我々は,オーロラ-Mを幅広いタスクや言語で評価し,破滅的忘れに対する頑健さと,多言語環境,特に安全性評価において優れた性能を示す。
我々はAurora-Mとその変種をオープンソースとして公開し、https://huggingface.co/aurora-m.comで大規模言語モデルのオープンソース開発に責任を負うよう奨励しています。
関連論文リスト
- DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails [12.621656255109546]
本稿では,多言語ガードレール学習のための高品質な合成データを生成するために,ジェネレータとガードレールモデルが逆方向に共進化する新しい2要素強化学習フレームワークを提案する。
実験により、我々のモデルは最先端モデルよりも優れており、LlamaGuard3よりも10%近く改善されていることが示された。
論文 参考訳(メタデータ) (2025-02-07T18:45:03Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - GreenPLM: Cross-Lingual Transfer of Monolingual Pre-Trained Language
Models at Almost No Cost [7.510253441699812]
本研究では,両言語レキシコンを用いて事前学習した言語モデルを直接他の言語に翻訳するGreenPLMというフレームワークを提案する。
このアプローチを18言語のBERTモデルで検証し、このフレームワークが、トレーニングコストの高い他のフレームワークに匹敵するものであることを示す。
7つのテスト言語のうち6つで、このフレームワークは、トレーニング前の最大200倍の労力で、元のモノリンガル言語モデルより優れています。
論文 参考訳(メタデータ) (2022-11-13T18:59:15Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - From English To Foreign Languages: Transferring Pre-trained Language
Models [0.12691047660244334]
事前訓練されたモデルは、多くの下流自然言語処理(NLP)タスクにおいてその効果を実証している。
多言語事前訓練モデルの可用性により、高リソース言語から低リソース言語へのNLPタスクのゼロショット転送が可能となる。
我々は,既存の事前学習されたモデルを,限定的な計算予算の下で英語から他言語に移行する問題に対処する。
論文 参考訳(メタデータ) (2020-02-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。