論文の概要: FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
- arxiv url: http://arxiv.org/abs/2408.06273v2
- Date: Tue, 13 Aug 2024 14:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 14:16:02.788054
- Title: FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
- Title(参考訳): FuxiTranyu: バランスデータでトレーニングされた多言語大言語モデル
- Authors: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong,
- Abstract要約: FuxiTranyuは、バランスの取れたハイパフォーマンス機能を備えたオープンソースの多言語言語モデルである。
80億のパラメータを持つベースモデルであるFuxiTranyu-8Bは、厳密にバランスの取れた多言語データリポジトリ上でゼロからトレーニングされている。
ベースモデルに加えて,多様な多言語命令データセットを微調整したFuxiTranyu-8B-DPOと,さらにDPOを改良したFuxiTranyu-8B-DPOという2つの命令調整モデルも開発している。
- 参考スコア(独自算出の注目度): 39.54285525397304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is trained from scratch on a meticulously balanced multilingual data repository that contains 600 billion tokens covering 43 natural languages and 16 programming languages. In addition to the base model, we also develop two instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability analyses at both the neuron and representation level suggest that FuxiTranyu is able to learn consistent multilingual representations across different languages. To promote further research into multilingual LLMs and their working mechanisms, we release both the base and instruction-tuned FuxiTranyu models together with 58 pretraining checkpoints at HuggingFace and Github.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクに長けている。
しかし、多くのLLMは、ハイソース言語と低リソース言語の間に大きな性能差がある。
この課題を軽減するため,オープンソースの多言語LLMであるFuxiTranyuを紹介した。
80億のパラメータを持つベースモデルであるFuxiTranyu-8Bは、43の自然言語と16のプログラミング言語をカバーする600億のトークンを含む、厳密にバランスの取れた多言語データリポジトリ上で、ゼロからトレーニングされている。
ベースモデルに加えて,多言語命令データセットを微調整したFuxiTranyu-8B-SFTと,アライメント能力を高めるためにDPOでさらに改良したFuxiTranyu-8B-DPOという2つの命令チューニングモデルも開発している。
広範囲にわたる多言語ベンチマーク実験により、既存の多言語LLM(例えば、BLOOM-7B、PolyLM-13B、Llama-2-Chat-7B、Mistral-7B-Instruct)に対するFuxiTranyuの競合性能が示された。
ニューロンと表現レベルでの解釈可能性の解析は、フキシトラユが異なる言語で一貫した多言語表現を学習できることを示している。
多言語LLMとその動作機構のさらなる研究を促進するために,HuggingFaceとGithubの58の事前学習チェックポイントとともに,ベースモデルと命令指定のFuxiTranyuモデルの両方をリリースする。
関連論文リスト
- Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Multilingual Large Language Models and Curse of Multilinguality [4.096453902709292]
大規模言語モデル(LLM)は自然言語処理(NLP)の研究者や実践者の間で広く普及している。
本稿では,多言語LLMの展望を概観し,その技術的側面について概観する。
基礎となるアーキテクチャ、客観的関数、事前トレーニングされたデータソース、トークン化メソッドを説明します。
論文 参考訳(メタデータ) (2024-06-15T11:31:39Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。