論文の概要: UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset
- arxiv url: http://arxiv.org/abs/2402.04588v2
- Date: Sun, 18 Feb 2024 03:56:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 02:57:49.855021
- Title: UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset
- Title(参考訳): ultralink: オープンソースの知識エンハンスド多言語教師付き微調整データセット
- Authors: Haoyu Wang, Shuo Wang, Yukun Yan, Xujia Wang, Zhiyu Yang, Yuzhuang Xu,
Zhenghao Liu, Liner Yang, Ning Ding, Xu Han, Zhiyuan Liu, Maosong Sun
- Abstract要約: オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
- 参考スコア(独自算出の注目度): 69.33424532827608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source large language models (LLMs) have gained significant strength
across diverse fields. Nevertheless, the majority of studies primarily
concentrate on English, with only limited exploration into the realm of
multilingual abilities. In this work, we therefore construct an open-source
multilingual supervised fine-tuning dataset. Different from previous works that
simply translate English instructions, we consider both the language-specific
and language-agnostic abilities of LLMs. Firstly, we introduce a
knowledge-grounded data augmentation approach to elicit more language-specific
knowledge of LLMs, improving their ability to serve users from different
countries. Moreover, we find modern LLMs possess strong cross-lingual transfer
capabilities, thus repeatedly learning identical content in various languages
is not necessary. Consequently, we can substantially prune the
language-agnostic supervised fine-tuning (SFT) data without any performance
degradation, making multilingual SFT more efficient. The resulting UltraLink
dataset comprises approximately 1 million samples across five languages (i.e.,
En, Zh, Ru, Fr, Es), and the proposed data construction method can be easily
extended to other languages. UltraLink-LM, which is trained on UltraLink,
outperforms several representative baselines across many tasks.
- Abstract(参考訳): オープンソースの大規模言語モデル(llm)は、さまざまな分野で大きな力を得ています。
それにもかかわらず、ほとんどの研究は主に英語に集中し、多言語能力の領域への探索は限られていた。
そこで本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
英語の指示を単純に翻訳する以前の研究と異なり、LLMの言語固有の能力と言語に依存しない能力の両方を考慮する。
まず,LLMの言語固有の知識を引き出すための知識基盤型データ拡張手法を導入し,各国のユーザに提供する能力を向上させる。
さらに,現代のLLMは言語間移動能力が強いため,様々な言語で同一の内容を繰り返し学習する必要はない。
その結果、言語に依存しない微調整(SFT)データを性能劣化なく実質的に作成することができ、多言語SFTをより効率的にすることができる。
得られたUltraLinkデータセットは、5つの言語(En, Zh, Ru, Fr, Es)にまたがる約100万のサンプルからなり、提案したデータ構築法は他の言語にも容易に拡張できる。
UltraLink-LMはUltraLinkでトレーニングされており、多くのタスクで代表的ベースラインを上回っている。
関連論文リスト
- Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。