論文の概要: UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset
- arxiv url: http://arxiv.org/abs/2402.04588v2
- Date: Sun, 18 Feb 2024 03:56:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 02:57:49.855021
- Title: UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset
- Title(参考訳): ultralink: オープンソースの知識エンハンスド多言語教師付き微調整データセット
- Authors: Haoyu Wang, Shuo Wang, Yukun Yan, Xujia Wang, Zhiyu Yang, Yuzhuang Xu,
Zhenghao Liu, Liner Yang, Ning Ding, Xu Han, Zhiyuan Liu, Maosong Sun
- Abstract要約: オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
- 参考スコア(独自算出の注目度): 69.33424532827608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source large language models (LLMs) have gained significant strength
across diverse fields. Nevertheless, the majority of studies primarily
concentrate on English, with only limited exploration into the realm of
multilingual abilities. In this work, we therefore construct an open-source
multilingual supervised fine-tuning dataset. Different from previous works that
simply translate English instructions, we consider both the language-specific
and language-agnostic abilities of LLMs. Firstly, we introduce a
knowledge-grounded data augmentation approach to elicit more language-specific
knowledge of LLMs, improving their ability to serve users from different
countries. Moreover, we find modern LLMs possess strong cross-lingual transfer
capabilities, thus repeatedly learning identical content in various languages
is not necessary. Consequently, we can substantially prune the
language-agnostic supervised fine-tuning (SFT) data without any performance
degradation, making multilingual SFT more efficient. The resulting UltraLink
dataset comprises approximately 1 million samples across five languages (i.e.,
En, Zh, Ru, Fr, Es), and the proposed data construction method can be easily
extended to other languages. UltraLink-LM, which is trained on UltraLink,
outperforms several representative baselines across many tasks.
- Abstract(参考訳): オープンソースの大規模言語モデル(llm)は、さまざまな分野で大きな力を得ています。
それにもかかわらず、ほとんどの研究は主に英語に集中し、多言語能力の領域への探索は限られていた。
そこで本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
英語の指示を単純に翻訳する以前の研究と異なり、LLMの言語固有の能力と言語に依存しない能力の両方を考慮する。
まず,LLMの言語固有の知識を引き出すための知識基盤型データ拡張手法を導入し,各国のユーザに提供する能力を向上させる。
さらに,現代のLLMは言語間移動能力が強いため,様々な言語で同一の内容を繰り返し学習する必要はない。
その結果、言語に依存しない微調整(SFT)データを性能劣化なく実質的に作成することができ、多言語SFTをより効率的にすることができる。
得られたUltraLinkデータセットは、5つの言語(En, Zh, Ru, Fr, Es)にまたがる約100万のサンプルからなり、提案したデータ構築法は他の言語にも容易に拡張できる。
UltraLink-LMはUltraLinkでトレーニングされており、多くのタスクで代表的ベースラインを上回っている。
関連論文リスト
- Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets [38.867815476721894]
ほとんどのインストラクションファインチューニング(IFT)データセットは、主に英語で書かれており、他の言語でのモデルパフォーマンスが制限されている。
多言語IFTデータセットを作成する従来の方法は、言語的ニュアンスを捕捉し、迅速な(指示)多様性を確保するのに苦労している。
本稿では,言語的自然性を維持し,迅速な多様性を保証する多言語IFTデータセットの収集手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T23:47:09Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文 参考訳(メタデータ) (2024-04-12T14:19:16Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。