論文の概要: Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order
- arxiv url: http://arxiv.org/abs/2404.00399v1
- Date: Sat, 30 Mar 2024 15:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:59:36.728691
- Title: Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order
- Title(参考訳): Aurora-M: 初のオープンソース多言語言語モデル
- Authors: Taishi Nakamura, Mayank Mishra, Simone Tedeschi, Yekun Chai, Jason T Stillerman, Felix Friedrich, Prateek Yadav, Tanmay Laud, Vu Minh Chien, Terry Yue Zhuo, Diganta Misra, Ben Bogin, Xuan-Son Vu, Marzena Karpinska, Arnav Varma Dantuluri, Wojciech Kusa, Tommaso Furlanello, Rio Yokota, Niklas Muennighoff, Suhas Pai, Tosin Adewumi, Veronika Laippala, Xiaozhe Yao, Adalberto Junior, Alpay Ariyak, Aleksandr Drozd, Jordan Clive, Kshitij Gupta, Liangyu Chen, Qi Sun, Ken Tsui, Noah Persaud, Nour Fahmy, Tianlong Chen, Mohit Bansal, Nicolo Monti, Tai Dang, Ziyang Luo, Tien-Tung Bui, Roberto Navigli, Virendra Mehta, Matthew Blumberg, Victor May, Huu Nguyen, Sampo Pyysalo,
- Abstract要約: Aurora-Mは、英語、フィンランド語、ヒンディー語、日本語、ベトナム語、コードで訓練された15Bパラメータの多言語オープンソースモデルである。
これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。
様々なタスクや言語で厳格に評価されており、破滅的な忘れ物に対する頑丈さを示している。
- 参考スコア(独自算出の注目度): 123.7406091753529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models underpin several AI applications, but their high computational cost for training limits accessibility. Initiatives such as BLOOM and StarCoder aim to democratize access to pretrained models for collaborative community development. However, such existing models face challenges: limited multilingual capabilities, continual pretraining causing catastrophic forgetting, whereas pretraining from scratch is computationally expensive, and compliance with AI safety and development laws. This paper presents Aurora-M, a 15B parameter multilingual open-source model trained on English, Finnish, Hindi, Japanese, Vietnamese, and code. Continually pretrained from StarCoderPlus on 435 billion additional tokens, Aurora-M surpasses 2 trillion tokens in total training token count. It is the first open-source multilingual model fine-tuned on human-reviewed safety instructions, thus aligning its development not only with conventional red-teaming considerations, but also with the specific concerns articulated in the Biden-Harris Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. Aurora-M is rigorously evaluated across various tasks and languages, demonstrating robustness against catastrophic forgetting and outperforming alternatives in multilingual settings, particularly in safety evaluations. To promote responsible open-source LLM development, Aurora-M and its variants are released at https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 .
- Abstract(参考訳): 事前訓練された言語モデルは、いくつかのAIアプリケーションを支えるが、トレーニングのための高い計算コストはアクセシビリティを制限する。
BLOOMやStarCoderといったイニシアティブは、共同コミュニティ開発のための事前訓練されたモデルへのアクセスを民主化することを目指している。
しかし、そのような既存のモデルは、制限された多言語能力、連続的な事前訓練が破滅的な忘れを生じさせる一方、スクラッチからの事前訓練は計算コストがかかること、AIの安全性と開発法に準拠すること、といった課題に直面している。
本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。
StarCoderPlusから435億の追加トークンで継続的に事前訓練され、Aurora-Mは合計で2兆トークンを超えた。
これは、人間がレビューした安全指示に基づいて微調整された最初のオープンソース多言語モデルであり、従来の赤チームの考慮だけでなく、安全・安全・信頼性開発・人工知能の利用に関するビデン・ハリス執行命令(英語版)に明記された具体的な懸念とも一致している。
Aurora-Mは様々なタスクや言語に対して厳格に評価されており、特に安全性評価において、多言語環境での破滅的な忘れ込みや優れた代替手段に対する堅牢性を実証している。
オープンソースのLLM開発を促進するため、Aurora-Mとその変種はhttps://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 でリリースされた。
関連論文リスト
- DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails [12.621656255109546]
本稿では,多言語ガードレール学習のための高品質な合成データを生成するために,ジェネレータとガードレールモデルが逆方向に共進化する新しい2要素強化学習フレームワークを提案する。
実験により、我々のモデルは最先端モデルよりも優れており、LlamaGuard3よりも10%近く改善されていることが示された。
論文 参考訳(メタデータ) (2025-02-07T18:45:03Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - GreenPLM: Cross-Lingual Transfer of Monolingual Pre-Trained Language
Models at Almost No Cost [7.510253441699812]
本研究では,両言語レキシコンを用いて事前学習した言語モデルを直接他の言語に翻訳するGreenPLMというフレームワークを提案する。
このアプローチを18言語のBERTモデルで検証し、このフレームワークが、トレーニングコストの高い他のフレームワークに匹敵するものであることを示す。
7つのテスト言語のうち6つで、このフレームワークは、トレーニング前の最大200倍の労力で、元のモノリンガル言語モデルより優れています。
論文 参考訳(メタデータ) (2022-11-13T18:59:15Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - From English To Foreign Languages: Transferring Pre-trained Language
Models [0.12691047660244334]
事前訓練されたモデルは、多くの下流自然言語処理(NLP)タスクにおいてその効果を実証している。
多言語事前訓練モデルの可用性により、高リソース言語から低リソース言語へのNLPタスクのゼロショット転送が可能となる。
我々は,既存の事前学習されたモデルを,限定的な計算予算の下で英語から他言語に移行する問題に対処する。
論文 参考訳(メタデータ) (2020-02-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。