論文の概要: UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset
- arxiv url: http://arxiv.org/abs/2402.04588v1
- Date: Wed, 7 Feb 2024 05:05:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 16:40:05.819700
- Title: UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset
- Title(参考訳): ultralink: オープンソースの知識エンハンスド多言語教師付き微調整データセット
- Authors: Haoyu Wang, Shuo Wang, Yukun Yan, Xujia Wang, Zhiyu Yang, Yuzhuang Xu,
Zhenghao Liu, Ning Ding, Xu Han, Zhiyuan Liu, Maosong Sun
- Abstract要約: オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
LLMの言語固有の能力と言語に依存しない能力の両方を考慮する。
言語に依存しない能力については、現代のLLMが強い言語間移動能力を示す実験を通して確認する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
- 参考スコア(独自算出の注目度): 70.16448204778227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source large language models (LLMs) have gained significant strength
across diverse fields. Nevertheless, the majority of studies primarily
concentrate on English, with only limited exploration into the realm of
multilingual supervised fine-tuning. In this work, we therefore construct an
open-source multilingual supervised fine-tuning dataset. Different from
previous works that simply translate English instructions, we consider both the
language-specific and language-agnostic abilities of LLMs. For
language-specific abilities, we introduce a knowledge-grounded data
augmentation approach to elicit more culture-specific knowledge of LLMs,
improving their ability to serve users from different countries. For
language-agnostic abilities, we find through experiments that modern LLMs
exhibit strong cross-lingual transfer capabilities, thus repeatedly learning
identical content in various languages is not necessary. Consequently, we can
substantially prune the language-agnostic SFT data without any performance
degradation, making the SFT process more efficient. The resulting UltraLink
dataset comprises approximately 1 million samples across five languages, and
the proposed data construction method can also be easily extended to other
languages. UltraLink-LM, which is trained on UltraLink, outperforms several
representative baselines across many tasks.
- Abstract(参考訳): オープンソースの大規模言語モデル(llm)は、さまざまな分野で大きな力を得ています。
それにもかかわらず、ほとんどの研究は主に英語に集中し、多言語教師による微調整の領域への探索は限られていた。
そこで本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
英語の指示を単純に翻訳する以前の研究と異なり、LLMの言語固有の能力と言語に依存しない能力の両方を考慮する。
言語特化能力については、LLMのより文化特化的な知識を引き出すための知識基盤データ拡張アプローチを導入し、異なる国のユーザに提供する能力を向上させる。
言語に依存しない能力については,現代のLLMは言語間移動能力が強いため,様々な言語で同じ内容を繰り返し学習する必要はない。
その結果、言語に依存しないSFTデータを性能劣化なしに実質的にプルークすることができるため、SFT処理をより効率的にすることができる。
得られたUltraLinkデータセットは、5つの言語にまたがる約100万のサンプルで構成されており、提案したデータ構築方法は他言語にも容易に拡張できる。
UltraLink-LMはUltraLinkでトレーニングされており、多くのタスクで代表的ベースラインを上回っている。
関連論文リスト
- Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets [38.867815476721894]
ほとんどのインストラクションファインチューニング(IFT)データセットは、主に英語で書かれており、他の言語でのモデルパフォーマンスが制限されている。
多言語IFTデータセットを作成する従来の方法は、言語的ニュアンスを捕捉し、迅速な(指示)多様性を確保するのに苦労している。
本稿では,言語的自然性を維持し,迅速な多様性を保証する多言語IFTデータセットの収集手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T23:47:09Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文 参考訳(メタデータ) (2024-04-12T14:19:16Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。