Fugu-MT 論文翻訳(概要): Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code

論文の概要: Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code

arxiv url: http://arxiv.org/abs/2404.00399v3
Date: Fri, 27 Dec 2024 03:53:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.716194
Title: Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code
Title（参考訳）: Aurora-M: オープンソースの多言語言語とコードの継続的事前トレーニング
Authors: Taishi Nakamura, Mayank Mishra, Simone Tedeschi, Yekun Chai, Jason T Stillerman, Felix Friedrich, Prateek Yadav, Tanmay Laud, Vu Minh Chien, Terry Yue Zhuo, Diganta Misra, Ben Bogin, Xuan-Son Vu, Marzena Karpinska, Arnav Varma Dantuluri, Wojciech Kusa, Tommaso Furlanello, Rio Yokota, Niklas Muennighoff, Suhas Pai, Tosin Adewumi, Veronika Laippala, Xiaozhe Yao, Adalberto Junior, Alpay Ariyak, Aleksandr Drozd, Jordan Clive, Kshitij Gupta, Liangyu Chen, Qi Sun, Ken Tsui, Noah Persaud, Nour Fahmy, Tianlong Chen, Mohit Bansal, Nicolo Monti, Tai Dang, Ziyang Luo, Tien-Tung Bui, Roberto Navigli, Virendra Mehta, Matthew Blumberg, Victor May, Huu Nguyen, Sampo Pyysalo,
Abstract要約: 本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。我々はAurora-Mを幅広いタスクや言語で評価し、破滅的な忘れ物に対する頑健さを示した。
参考スコア（独自算出の注目度）: 123.7406091753529
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretrained language models are an integral part of AI applications, but their high computational cost for training limits accessibility. Initiatives such as Bloom and StarCoder aim to democratize access to pretrained models for collaborative community development. Despite these efforts, such models encounter challenges such as limited multilingual capabilities, risks of catastrophic forgetting during continual pretraining, and the high costs of training models from scratch, alongside the need to align with AI safety standards and regulatory frameworks. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435B additional tokens, Aurora-M surpasses 2T tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. We evaluate Aurora-M across a wide range of tasks and languages, showcasing its robustness against catastrophic forgetting and its superior performance in multilingual settings, particularly in safety evaluations. We open-source Aurora-M and its variants to encourage responsible open-source development of large language models at https://huggingface.co/aurora-m.
Abstract（参考訳）: 事前訓練された言語モデルは、AIアプリケーションにおいて不可欠な部分であるが、トレーニングのための高い計算コストはアクセシビリティを制限する。 BloomやStarCoderといったイニシアチブは、共同コミュニティ開発のための事前訓練されたモデルへのアクセスを民主化することを目指している。これらの努力にもかかわらず、このようなモデルは、制限された多言語機能、継続的な事前トレーニング中の破滅的な忘れ込みのリスク、AIの安全基準や規制フレームワークとの整合性の必要性に加えて、スクラッチからのトレーニングモデルの高コストといった課題に直面している。本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。 435Bの追加トークンでStarCoderPlusから継続的に事前トレーニングされたAurora-Mは、合計のトレーニングトークン数で2Tトークンを上回っている。これは、人間がレビューした安全指示に基づいて微調整された最初のオープンソース多言語モデルであり、従来の赤チームの考慮だけでなく、安全・安全・信頼性開発・人工知能の利用に関するビデン・ハリス執行命令(英語版)に明記された具体的な懸念とも一致している。我々は,オーロラ-Mを幅広いタスクや言語で評価し,破滅的忘れに対する頑健さと,多言語環境,特に安全性評価において優れた性能を示す。我々はAurora-Mとその変種をオープンソースとして公開し、https://huggingface.co/aurora-m.comで大規模言語モデルのオープンソース開発に責任を負うよう奨励しています。

関連論文リスト

MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails [12.621656255109546]
本稿では,多言語ガードレール学習のための高品質な合成データを生成するために,ジェネレータとガードレールモデルが逆方向に共進化する新しい2要素強化学習フレームワークを提案する。実験により、我々のモデルは最先端モデルよりも優れており、LlamaGuard3よりも10%近く改善されていることが示された。
論文参考訳（メタデータ） (2025-02-07T18:45:03Z)
Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文参考訳（メタデータ） (2024-04-02T11:34:12Z)
TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese [0.0]
大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発について述べる。これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。
論文参考訳（メタデータ） (2024-01-30T00:25:54Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。 Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文参考訳（メタデータ） (2023-09-19T04:13:22Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
GreenPLM: Cross-Lingual Transfer of Monolingual Pre-Trained Language Models at Almost No Cost [7.510253441699812]
本研究では,両言語レキシコンを用いて事前学習した言語モデルを直接他の言語に翻訳するGreenPLMというフレームワークを提案する。このアプローチを18言語のBERTモデルで検証し、このフレームワークが、トレーニングコストの高い他のフレームワークに匹敵するものであることを示す。 7つのテスト言語のうち6つで、このフレームワークは、トレーニング前の最大200倍の労力で、元のモノリンガル言語モデルより優れています。
論文参考訳（メタデータ） (2022-11-13T18:59:15Z)
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。 BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。 BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文参考訳（メタデータ） (2022-11-09T18:48:09Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文参考訳（メタデータ） (2022-05-25T10:53:24Z)
Multilingual Translation with Extensible Multilingual Pretraining and Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。多言語翻訳モデルは多言語微調整により作成可能であることを示す。事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文参考訳（メタデータ） (2020-08-02T05:36:55Z)
From English To Foreign Languages: Transferring Pre-trained Language Models [0.12691047660244334]
事前訓練されたモデルは、多くの下流自然言語処理(NLP)タスクにおいてその効果を実証している。多言語事前訓練モデルの可用性により、高リソース言語から低リソース言語へのNLPタスクのゼロショット転送が可能となる。我々は,既存の事前学習されたモデルを,限定的な計算予算の下で英語から他言語に移行する問題に対処する。
論文参考訳（メタデータ） (2020-02-18T00:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。