論文の概要: Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages
- arxiv url: http://arxiv.org/abs/2402.12204v1
- Date: Mon, 19 Feb 2024 15:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:58:58.716273
- Title: Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages
- Title(参考訳): 資源リッチ言語からの自己蒸留による大規模言語モデルの多言語機能向上
- Authors: Yuanchi Zhang, Yile Wang, Zijun Liu, Shuo Wang, Xiaolong Wang, Peng
Li, Maosong Sun, Yang Liu
- Abstract要約: 大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
- 参考スコア(独自算出の注目度): 60.162717568496355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have been pre-trained on multilingual
corpora, their performance still lags behind in most languages compared to a
few resource-rich languages. One common approach to mitigate this issue is to
translate training data from resource-rich languages into other languages and
then continue training. However, using the data obtained solely relying on
translation while ignoring the original capabilities of LLMs across languages
is not always effective, which we show will limit the performance of
cross-lingual knowledge transfer. In this work, we propose SDRRL, a method
based on Self-Distillation from Resource-Rich Languages that effectively
improve multilingual performance by leveraging the internal capabilities of
LLMs on resource-rich languages. We evaluate on different LLMs (LLaMA-2 and
SeaLLM) and source languages across various comprehension and generation tasks,
experimental results demonstrate that SDRRL can significantly enhance
multilingual capabilities while minimizing the impact on original performance
in resource-rich languages.
- Abstract(参考訳): 大規模言語モデル(llm)は多言語コーパスで事前学習されているが、その性能はいくつかのリソース豊富な言語に比べてほとんどの言語で劣っている。
この問題を緩和するための一般的なアプローチは、リソース豊富な言語から他の言語へのトレーニングデータを変換し、トレーニングを続けることである。
しかし、言語間のLLMの本来の能力を無視しながら翻訳のみに依存したデータを使用することは、必ずしも効果的ではない。
本研究では,資源リッチ言語におけるLLMの内部機能を活用することで,多言語性能を効果的に向上するSDRRLを提案する。
LLM(LLaMA-2 と SeaLLM)とソース言語を様々な理解・生成タスクで比較した結果,SDRRL は資源豊富な言語における本来の性能への影響を最小化しつつ,多言語機能を大幅に向上させることができることが示された。
関連論文リスト
- UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their
English Dominant Abilities with Linguistically-Diverse Prompts [36.939044809209456]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - MetaXLR -- Mixed Language Meta Representation Transformation for
Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。
我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文 参考訳(メタデータ) (2023-05-31T18:22:33Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。