論文の概要: BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment
- arxiv url: http://arxiv.org/abs/2411.16300v1
- Date: Mon, 25 Nov 2024 11:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:13.670316
- Title: BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment
- Title(参考訳): BayLing 2: 効率的な言語アライメントを備えた多言語大言語モデル
- Authors: Shaolei Zhang, Kehao Zhang, Qingkai Fang, Shoutao Guo, Yan Zhou, Xiaodong Liu, Yang Feng,
- Abstract要約: 本稿では,ハイソース言語から低ソース言語へ効率的に生成能力と知識を伝達するBayLing 2を紹介する。
100以上の言語にまたがる多言語翻訳では、BayLingは同様のスケールのオープンソースモデルよりも優れたパフォーマンスを示している。
BayLingのデモ、ホームページ、コード、モデルが利用可能だ。
- 参考スコア(独自算出の注目度): 42.193395498828764
- License:
- Abstract: Large language models (LLMs), with their powerful generative capabilities and vast knowledge, empower various tasks in everyday life. However, these abilities are primarily concentrated in high-resource languages, leaving low-resource languages with weaker generative capabilities and relatively limited knowledge. Enhancing the multilingual capabilities of LLMs is therefore crucial for serving over 100 linguistic communities worldwide. An intuitive approach to enhance the multilingual capabilities would be to construct instruction data for various languages, but constructing instruction data for over 100 languages is prohibitively costly. In this paper, we introduce BayLing 2, which efficiently transfers generative capabilities and knowledge from high-resource languages to low-resource languages through language alignment. To achieve this, we constructed a dataset of 3.2 million instructions, comprising high-resource language instructions (Chinese and English) and cross-lingual instructions for 100+ languages and performed instruction tuning based on the dataset to facilitate the capability transfer between languages. Using Llama as the foundation model, we developed BayLing-2-7B, BayLing-2-13B, and BayLing-3-8B, and conducted a comprehensive evaluation of BayLing. For multilingual translation across 100+ languages, BayLing shows superior performance compared to open-source models of similar scale. For multilingual knowledge and understanding benchmarks, BayLing achieves significant improvements across over 20 low-resource languages, demonstrating its capability of effective knowledge transfer from high-resource to low-resource languages. Furthermore, results on English benchmarks indicate that BayLing maintains high performance in highresource languages while enhancing the performance in low-resource languages. Demo, homepage, code and models of BayLing are available.
- Abstract(参考訳): 大きな言語モデル(LLM)は、強力な生成能力と膨大な知識を持ち、日常生活における様々なタスクに力を与える。
しかし、これらの能力は主に高リソース言語に集中しており、低リソース言語は生成能力が弱く、知識は比較的限られている。
したがって、LLMの多言語能力を高めることは、世界中の100以上の言語コミュニティに奉仕するために重要である。
多言語機能を強化するための直感的なアプローチは、様々な言語のための命令データを構築することであるが、100以上の言語のための命令データを構築するのは非常にコストがかかる。
本稿では,ハイソース言語から低リソース言語へ効率よく生成能力と知識を変換するBayLing 2を紹介する。
そこで本研究では,100以上の言語に対して,高精度な言語命令(中国語と英語)と言語間命令を含む320万の命令からなるデータセットを構築し,そのデータセットに基づいて命令チューニングを行い,言語間の能力伝達を容易にする。
基礎モデルとしてLlamaを用い,BayLing-2-7B,BayLing-2-13B,BayLing-3-8Bを開発した。
100以上の言語にまたがる多言語翻訳では、BayLingは同様のスケールのオープンソースモデルよりも優れたパフォーマンスを示している。
マルチリンガルな知識と理解ベンチマークのために、BayLingは20以上の低リソース言語にまたがる大幅な改善を実現し、高リソース言語から低リソース言語への効果的な知識伝達能力を示している。
さらに、英語ベンチマークの結果から、BayLingは低リソース言語の性能を向上しつつ、ハイソース言語で高いパフォーマンスを維持していることが示された。
BayLingのデモ、ホームページ、コード、モデルが利用可能だ。
関連論文リスト
- Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [19.37853222555255]
大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。
複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
論文 参考訳(メタデータ) (2024-09-22T14:14:05Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。