論文の概要: M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.16783v1
- Date: Mon, 24 Jun 2024 16:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 13:55:51.402452
- Title: M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models
- Title(参考訳): M2Lingual:大規模言語モデルにおける多言語・多言語インストラクションアライメントの強化
- Authors: Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan,
- Abstract要約: 我々は,M2Lingualと呼ばれる多言語多言語命令微調整データセットの完全合成・新規分類法(Evol)を提案する。
M2Lingualには合計182KのIFTペアが含まれており、70の言語、17のNLPタスク、一般的な命令応答ペアをカバーしている。
M2Lingualで微調整されたLLMは、既存の多言語IFTデータセットと比較して、様々な評価ベンチマークで一貫して競合する結果が得られる。
- 参考スコア(独自算出の注目度): 7.974870091740232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. Numerous effective IFT datasets have been proposed in the recent past, but most focus on high resource languages such as English. In this work, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual, to better align LLMs on a diverse set of languages and tasks. M2Lingual contains a total of 182K IFT pairs that are built upon diverse seeds, covering 70 languages, 17 NLP tasks and general instruction-response pairs. LLMs finetuned with M2Lingual substantially outperform the majority of existing multilingual IFT datasets. Importantly, LLMs trained with M2Lingual consistently achieve competitive results across a wide variety of evaluation benchmarks compared to existing multilingual IFT datasets. Specifically, LLMs finetuned with M2Lingual achieve strong performance on our translated multilingual, multi-turn evaluation benchmark as well as a wide variety of multilingual tasks. Thus we contribute, and the 2 step Evol taxonomy used for its creation. M2Lingual repository - https://huggingface.co/datasets/ServiceNow-AI/M2Lingual
- Abstract(参考訳): インストラクション微調整(IFT)は、命令に従うためにLLM(Large Language Models)を調整するために重要である。
近年,多くの効果的なIFTデータセットが提案されているが,主に英語などの高資源言語に焦点が当てられている。
本研究では,M2Lingualと呼ばれる多言語・多言語・多言語命令微調整データセットを,多言語・多言語・多言語・多言語・多言語・多言語・多言語/多言語・多言語・多言語・多言語・多言語・多言語/多言語・多言語・多言語/多言語・多言語・多言語・多言語/多言語・多言語・多言語・多言語・多言語・多言語・多言語/多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
M2Lingualには合計182KのIFTペアが含まれており、70の言語、17のNLPタスク、一般的な命令応答ペアをカバーしている。
M2Lingualで微調整されたLLMは、既存の多言語IFTデータセットの大部分を著しく上回っている。
重要なことに、M2LingualでトレーニングされたLLMは、既存の多言語IFTデータセットと比較して、幅広い評価ベンチマークで一貫して競合する結果が得られる。
具体的には、M2Lingualで微調整されたLLMは、翻訳された多言語・多言語評価ベンチマークと、多言語タスクの多種多様な性能を実現する。
このように、我々は貢献し、2段階のEvol分類法を創出に用いた。
M2Lingualリポジトリ - https://huggingface.co/datasets/ServiceNow-AI/M2Lingual
関連論文リスト
- Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Improving Multilingual Instruction Finetuning via Linguistically Natural and Diverse Datasets [38.867815476721894]
ほとんどのインストラクションファインチューニング(IFT)データセットは、主に英語で書かれており、他の言語でのモデルパフォーマンスが制限されている。
多言語IFTデータセットを作成する従来の方法は、言語的ニュアンスを捕捉し、迅速な(指示)多様性を確保するのに苦労している。
本稿では,言語的自然性を維持し,迅速な多様性を保証する多言語IFTデータセットの収集手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T23:47:09Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment [4.571088742209442]
91Kの英語-韓国-中国の多言語・マルチモーダルトレーニングデータセットを作成します。
韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダル・モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T01:14:47Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。