論文の概要: Bailong: Bilingual Transfer Learning based on QLoRA and Zip-tie Embedding
- arxiv url: http://arxiv.org/abs/2404.00862v1
- Date: Mon, 1 Apr 2024 02:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:36:01.074648
- Title: Bailong: Bilingual Transfer Learning based on QLoRA and Zip-tie Embedding
- Title(参考訳): Bailong: QLoRAとZip-tieの埋め込みに基づくバイリンガルトランスファー学習
- Authors: Lung-Chuan Chen, Zong-Ru Li,
- Abstract要約: 大規模言語モデル (LLM) は様々なNLPアプリケーションにおいて例外的な性能を示した。
オープンソースのLLMの大部分は、主に英語のデータと他言語のほとんどに基づいて事前訓練されている。
マルチターン対話シナリオに最適化されたBailong 7Bの微調整バージョンであるBailongを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional performance in various NLP applications. However, the majority of existing open-source LLMs are pre-trained primarily on English data and little part of other languages. This deficiency in multilingual training data results in suboptimal performance when applied to languages with fewer available resources. Furthermore, enhancing the performance of LLMs on low-resource languages by full-parameter fine-tuning with additional data requires substantial computational resources, posing computational barriers for research organizations and individual researchers. Consequently, several techniques such as parameter-efficient tuning and advanced embedding initialization have been proposed to address these challenges. In this work, we combine them to facilitate cross-lingual transfer on English-dominated open-source LLM. To effectively enhance the model's proficiency in Traditional Chinese, we conduct secondary pre-training on Llama 2 7B with Traditional Chinese data by leveraging QLoRA and our proposed zip-tie embedding initialization. The resulting model called Bailong, which stands for Bilingual trAnsfer learnIng based on qLOra and zip-tie embeddiNG. We present Bailong-instruct 7B, a fine-tuned version of Bailong 7B optimized for multi-turn dialogue scenarios. Recognizing the inadequacy of benchmark datasets in Traditional Chinese, we further introduce Bailong-bench to assess the alignment of models with human preferences and the capability to follow instructions in both Traditional Chinese and English tasks. In our evaluation, Bailong-instruct 7B exhibits competitive performance on Bailong-bench and other benchmark datasets when compared to other open-source models of similar or even larger parameter sizes. Bailong-instruct 7B and Bailong-bench are publicly available with the aim of empowering the community to build upon our efforts.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なNLPアプリケーションにおいて例外的な性能を示した。
しかし、既存のオープンソース LLM の大部分は、主に英語のデータと他言語のほとんどに基づいて事前訓練されている。
この多言語学習データの欠如は、利用可能なリソースが少ない言語に適用した場合、最適以下の性能をもたらす。
さらに,低リソース言語におけるLLMの性能を向上させるために,新たなデータを用いたフルパラメータ細調整を行うには,かなりの計算資源が必要であり,研究機関や個々の研究者にとって計算障壁が生じる。
その結果、これらの課題に対処するため、パラメータ効率の調整や高度な埋め込み初期化といったいくつかの手法が提案されている。
本研究では,これらを組み合わせて,英語が支配するオープンソース LLM 上での言語間移動を容易にする。
従来の中国語におけるモデルの習熟度を効果的に向上するために,QLoRAと提案したzip-tie埋め込み初期化を利用して,従来の中国語データを用いたLlama 2 7Bの二次事前学習を行う。
Bailongと呼ばれるこのモデルは、qLOraとzip-tiebeddiNGをベースにしたBilingual trAnsfer learnIngを表す。
マルチターン対話シナリオに最適化されたBailong-instruct 7Bの微調整版であるBailong-instruct 7Bを提案する。
従来の中国語におけるベンチマークデータセットの不十分さを認識し,人選好によるモデルのアライメントと,従来の中国語と英語のタスクにおける指示に従う能力を評価するために,Bailong-benchを導入する。
評価では,Bailong-instruct 7BはBailong-benchや他のベンチマークデータセットに対して,類似あるいはそれ以上のパラメータサイズを持つ他のオープンソースモデルと比較して,競合性能を示す。
Bailong-instruct 7B と Bailong-bench は、コミュニティに我々の努力を基盤として、公開されています。
関連論文リスト
- Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Adapting to the Low-Resource Double-Bind: Investigating Low-Compute
Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。
低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。
これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文 参考訳(メタデータ) (2023-03-29T19:25:43Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。