論文の概要: Aya 23: Open Weight Releases to Further Multilingual Progress
- arxiv url: http://arxiv.org/abs/2405.15032v2
- Date: Fri, 31 May 2024 14:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 19:03:44.681197
- Title: Aya 23: Open Weight Releases to Further Multilingual Progress
- Title(参考訳): Aya 23: オープンウェイトがリリース、さらに多言語対応へ
- Authors: Viraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Jon Ander Campos, Yi Chern Tan, Kelly Marchisio, Max Bartolo, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Aidan Gomez, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker,
- Abstract要約: Aya 23は、Ayaモデルの最新リリース("Ust"un et al., 2024)の上に構築されており、高性能で事前訓練されたモデルと、最近リリースされたAyaコレクションとのペアリングに焦点を当てている。
その結果、23の言語を提供する強力な多言語大言語モデルとなり、最先端の言語モデリング能力を世界の人口の約半分にまで拡張した。
- 参考スコア(独自算出の注目度): 47.673416416949145
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\"Ust\"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.
- Abstract(参考訳): この技術的レポートでは、多言語言語モデルのファミリーであるAya 23を紹介します。
Aya 23は、Ayaモデルの最新リリース("Ust\"un et al , 2024)に基づいて構築されており、高性能で事前訓練されたモデルと、最近リリースされたAyaコレクション(Singh et al , 2024)とのペアリングに焦点を当てている。
その結果、23の言語を提供する強力な多言語大言語モデルとなり、最先端の言語モデリング能力を世界の人口の約半分にまで拡張した。
Ayaモデルは101言語をカバーし、Aya 23は深さ対幅の実験であり、事前トレーニング中に含まれるより少ない言語により多くのキャパシティを割り当てることの影響を探っている。
Aya 23は、Aya 101のような従来の多言語モデルと、Gemma、Mistral、Mixtralといった広く使われているモデルの両方を、差別的で生成的なタスクで上回っている。
8Bモデルと35Bモデルの両方のオープンウェイトは、多言語進行へのアクセスを拡大するための継続的なコミットメントの一部としてリリースします。
関連論文リスト
- Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages [55.36534539177367]
本稿では,39言語にまたがる多様な6M命令データセットに基づいて訓練された多言語多言語多言語大言語モデル(MLLM)であるPangeaを紹介する。
P Pangeaは、多言語設定や多様な文化的コンテキストにおいて、既存のオープンソースモデルよりも大幅に優れています。
我々は、包括的で堅牢な多言語MLLMの開発を容易にするために、データ、コード、訓練されたチェックポイントを完全にオープンソースにしています。
論文 参考訳(メタデータ) (2024-10-21T16:19:41Z) - RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs [13.563021984882704]
高品質な多言語フィードバックデータを生成するための,新しいスケーラブルな手法を提案する。
我々の選好訓練モデルはAya 23 8Bに対して54.4%の勝利率を達成した。
その結果,世界の人口の半分をカバーする23言語にアライメント手法のフロンティアを広げた。
論文 参考訳(メタデータ) (2024-07-02T17:42:30Z) - Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。
フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文 参考訳(メタデータ) (2024-04-02T11:34:12Z) - Aya Model: An Instruction Finetuned Open-Access Multilingual Language
Model [33.87586041774359]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。
99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。
我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (2024-02-12T17:34:13Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Assessing Translation capabilities of Large Language Models involving
English and Indian Languages [4.067706269490143]
機械翻訳を英語と22のインド語を含む課題として用いて,大規模言語モデルの多言語的機能について検討する。
パラメータ効率のよいLoRAなどの微調整手法と,さらに完全な微調整を併用して,これらの大規模言語モデルを微調整する。
その結果,平均BLEUスコアは13.42,15.93,12.13,12.30,12.07,CHRFスコアは43.98,46.99,42.55,42.42,45.39であった。
論文 参考訳(メタデータ) (2023-11-15T18:58:19Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - BigTranslate: Augmenting Large Language Models with Multilingual
Translation Capability over 100 Languages [47.99695189331567]
我々は,LLaMAを20言語に限定し,100言語以上で多言語翻訳機能を備えたBigTranslateを提案する。
BigTranslateは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語単言語データを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTranslateモデルを導出する。
論文 参考訳(メタデータ) (2023-05-29T14:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。