論文の概要: Bactrian-X: Multilingual Replicable Instruction-Following Models with
Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2305.15011v2
- Date: Tue, 10 Oct 2023 07:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:03:57.143748
- Title: Bactrian-X: Multilingual Replicable Instruction-Following Models with
Low-Rank Adaptation
- Title(参考訳): Bactrian-X:低ランク適応型多言語レプリケート命令追従モデル
- Authors: Haonan Li and Fajri Koto and Minghao Wu and Alham Fikri Aji and
Timothy Baldwin
- Abstract要約: Bactrian-Xは52言語にわたる340万の命令応答対の包括的な多言語並列データセットである。
大規模言語モデルとシームレスに統合可能な軽量なコンポーネントであるローランク適応(LoRA)を用いて,アダプタセットをトレーニングする。
様々な多言語評価設定の実験では、バニラモデルと既存の命令調整モデルの両方において、バクタリアンXによるLoRAベースのトレーニングから派生したモデルが優れていることが示されている。
- 参考スコア(独自算出の注目度): 40.695782736177264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has shown great promise in improving the performance of
large language models. However, research on multilingual instruction tuning has
been limited due to the scarcity of high-quality instruction-response datasets
across different languages. To bridge this gap, we present Bactrian-X, a
comprehensive multilingual parallel dataset of 3.4 million instruction-response
pairs across 52 languages. Leveraging this dataset, we train a set of adapters
using low-rank adaptation (LoRA), which are lightweight components that
seamlessly integrate with large language models. These adapters have a
substantially lower parameter count than the base model, making them easily
replaceable and usable as plug-ins for different languages or language groups.
Extensive experiments in various multilingual evaluation settings demonstrate
that models derived from LoRA-based training over Bactrian-X outperform both
the vanilla models and existing instruction-tuned models. The code and models
are publicly available at https://github.com/mbzuai-nlp/bactrian-x
- Abstract(参考訳): インストラクションチューニングは,大規模言語モデルの性能向上に大きく貢献している。
しかし、多言語命令チューニングの研究は、様々な言語にまたがる高品質な命令応答データセットの不足のために限られている。
このギャップを埋めるために,52言語にまたがる340万の命令応答ペアからなる包括的多言語並列データセットであるbactrian-xを提案する。
このデータセットを活用することで、大規模な言語モデルとシームレスに統合可能な軽量コンポーネントであるローランク適応(LoRA)を使用して、アダプタセットをトレーニングします。
これらのアダプタはベースモデルよりもパラメータ数をかなり少なくするので、さまざまな言語や言語グループのプラグインとして簡単に置き換えられる。
様々な多言語評価設定における広範囲な実験により、バニラモデルと既存の命令調整モデルの両方において、バクタリアンXによるLoRAベースのトレーニングから派生したモデルが優れていることが示された。
コードとモデルはhttps://github.com/mbzuai-nlp/bactrian-xで公開されている。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。
我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。
また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文 参考訳(メタデータ) (2024-04-08T11:55:44Z) - XSemPLR: Cross-Lingual Semantic Parsing in Multiple Natural Languages
and Meaning Representations [25.50509874992198]
Cross-Lingual Semantic Parsingは、複数の自然言語のクエリを意味表現に変換することを目的としている。
既存のCLSPモデルは個別に提案され、限られたタスクやアプリケーションのデータセット上で評価される。
XSemPLRは、22の自然言語と8つの意味表現を特徴とする言語間意味解析のための統一的なベンチマークである。
論文 参考訳(メタデータ) (2023-06-07T01:09:37Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。