論文の概要: Tiny Aya: Bridging Scale and Multilingual Depth
- arxiv url: http://arxiv.org/abs/2603.11510v1
- Date: Thu, 12 Mar 2026 03:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.853411
- Title: Tiny Aya: Bridging Scale and Multilingual Depth
- Title(参考訳): Tiny Aya: ブリッジスケールとマルチリンガル深さ
- Authors: Alejandro R. Salamanca, Diana Abagyan, Daniel D'souza, Ammar Khairi, David Mora, Saurabh Dash, Viraat Aryabumi, Sara Rajaee, Mehrnaz Mofakhami, Ananya Sahu, Thomas Euyang, Brittawnya Prince, Madeline Smith, Hangyu Lin, Acyr Locatelli, Sara Hooker, Tom Kocmi, Aidan Gomez, Ivan Zhang, Phil Blunsom, Nick Frosst, Joelle Pineau, Beyza Ermis, Ahmet Üstün, Julia Kreutzer, Marzieh Fadaee,
- Abstract要約: Tiny Aya氏は、小さな多言語言語モデルが達成できることを再定義する。
翻訳品質の最先端、多言語理解の強化、高品質なターゲット言語生成を提供する。
このレポートでは、Tiny Ayaを支えるトレーニング戦略、データ構成、包括的な評価フレームワークについて詳述する。
- 参考スコア(独自算出の注目度): 71.20786995660801
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tiny Aya redefines what a small multilingual language model can achieve. Trained on 70 languages and refined through region-aware posttraining, it delivers state-of-the-art in translation quality, strong multilingual understanding, and high-quality target-language generation, all with just 3.35B parameters. The release includes a pretrained foundation model, a globally balanced instruction-tuned variant, and three region-specialized models targeting languages from Africa, South Asia, Europe, Asia-Pacific, and West Asia. This report details the training strategy, data composition, and comprehensive evaluation framework behind Tiny Aya, and presents an alternative scaling path for multilingual AI: one centered on efficiency, balanced performance across languages, and practical deployment.
- Abstract(参考訳): Tiny Aya氏は、小さな多言語言語モデルが達成できることを再定義する。
70言語で訓練され、地域対応のポストトレーニングを通じて洗練され、翻訳品質、多言語理解の強化、高品質なターゲット言語生成を提供する。
このリリースには、事前訓練されたファンデーションモデル、グローバルなバランスの取れた命令チューニングモデル、アフリカ、南アジア、ヨーロッパ、アジア太平洋、西アジアの言語をターゲットにした3つの地域特化モデルが含まれている。
この記事では、Tiny Ayaを支えるトレーニング戦略、データ構成、包括的な評価フレームワークについて詳述するとともに、多言語AIの代替のスケーリングパスとして、効率性、言語間のバランスの取れたパフォーマンス、実用的なデプロイメントについて紹介する。
関連論文リスト
- Developing multilingual speech synthesis system for Ojibwe, Mi'kmaq, and Maliseet [4.889851090443267]
我々は,Ojibwe,Mi'kmaq,Maliseetの多言語テキスト音声(TTS)システムについて述べる。
この結果から,3言語に類する多言語TSモデルをトレーニングすることで,単言語モデルよりも性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2025-02-04T20:36:55Z) - Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier [72.5652085347547]
8Bおよび32Bパラメータ多言語モデルの新世代であるAya Expanseモデルファミリを導入する。
Cohere For AIとCohereでの数年間の研究を活用することで、Aya Expanseは多言語パフォーマンスにおける新たな最先端技術を確立している。
Aya Expanse 8B と 32B が主要なオープンウェイトモデルより優れていることを示すために,23言語に翻訳された Arena-Hard-Auto データセットの評価を行った。
論文 参考訳(メタデータ) (2024-12-05T15:41:06Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。