論文の概要: Code-Switching Curriculum Learning for Multilingual Transfer in LLMs
- arxiv url: http://arxiv.org/abs/2411.02460v1
- Date: Mon, 04 Nov 2024 06:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:02:08.174826
- Title: Code-Switching Curriculum Learning for Multilingual Transfer in LLMs
- Title(参考訳): LLMにおける多言語移動のためのコードスイッチングカリキュラム学習
- Authors: Haneul Yoo, Cheonbok Park, Sangdoo Yun, Alice Oh, Hwaran Lee,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにおいて、ほぼ人間レベルのパフォーマンスを示すが、その性能は、少数の高リソース言語の後、劇的に低下する。
第2言語習得の人的プロセスに触発されて,LLMの言語間移動を促進するためのCSCL(Code-Switching Curchical Learning)を提案する。
CSCLは,1)トークンレベルのコードスイッチング,2)文レベルのコードスイッチング,3)単言語コーパスからなるカリキュラムを用いて,段階的にモデルを訓練することで,人間の言語学習の段階を模倣する。
- 参考スコア(独自算出の注目度): 43.85646680303273
- License:
- Abstract: Large language models (LLMs) now exhibit near human-level performance in various tasks, but their performance drops drastically after a handful of high-resource languages due to the imbalance in pre-training data. Inspired by the human process of second language acquisition, particularly code-switching (the practice of language alternation in a conversation), we propose code-switching curriculum learning (CSCL) to enhance cross-lingual transfer for LLMs. CSCL mimics the stages of human language learning by progressively training models with a curriculum consisting of 1) token-level code-switching, 2) sentence-level code-switching, and 3) monolingual corpora. Using Qwen 2 as our underlying model, we demonstrate the efficacy of the CSCL in improving language transfer to Korean, achieving significant performance gains compared to monolingual continual pre-training methods. Ablation studies reveal that both token- and sentence-level code-switching significantly enhance cross-lingual transfer and that curriculum learning amplifies these effects. We also extend our findings into various languages, including Japanese (high-resource) and Indonesian (low-resource), and using two additional models (Gemma 2 and Phi 3.5). We further show that CSCL mitigates spurious correlations between language resources and safety alignment, presenting a robust, efficient framework for more equitable language transfer in LLMs. We observe that CSCL is effective for low-resource settings where high-quality, monolingual corpora for language transfer are hardly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、今や様々なタスクにおいて、ほぼ人間レベルのパフォーマンスを示すが、事前トレーニングデータの不均衡により、少数の高リソース言語の後、そのパフォーマンスは劇的に低下する。
第2言語習得の人的プロセス,特にコードスイッチング(会話における言語交替の実践)に触発された我々は,LLMの言語間移動を促進するために,コードスイッチングカリキュラム学習(CSCL)を提案する。
CSCLは、カリキュラムで段階的にモデルを訓練することで、人間の言語学習の段階を模倣する
1)トークンレベルのコードスイッチング
2 文レベルのコード変更、及び
3)単言語コーパス。
Qwen 2 を基礎モデルとして,CSCL が韓国語への言語移行を改善する効果を実証し,単言語的継続事前学習法と比較して大きな性能向上を実現した。
アブレーション研究は、トークンレベルのコードスイッチングと文レベルのコードスイッチングの両方が言語間移動を大幅に促進し、カリキュラム学習がこれらの効果を増幅することを明らかにする。
また、日本語(高リソース)やインドネシア語(低リソース)、さらに2つのモデル(Gemma 2とPhi 3.5)も使用しています。
さらに,CSCLは言語資源と安全アライメントの急激な相関を緩和し,LLMにおけるより公平な言語伝達のための堅牢で効率的なフレームワークを提供する。
CSCLは,高品質な単言語コーパスがほとんど利用できない低リソース環境において有効であることを示す。
関連論文リスト
- Can Code-Switched Texts Activate a Knowledge Switch in LLMs? A Case Study on English-Korean Code-Switching [14.841981996951395]
コードスイッチング(英語版) (CS) は微妙な文化的・言語的なニュアンスを伝えることができ、それ以外は翻訳で失われることがある。
近年の多言語大言語モデル(LLM)は,CSの理解など,様々な面で優れた多言語能力を示す。
論文 参考訳(メタデータ) (2024-10-24T05:14:03Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP [13.662528492286528]
本稿では,この課題に対処し,より効率的な言語適応を実現するために,新たな言語間語彙移動戦略であるトランストークン化を提案する。
提案手法は,ソースコードからの意味論的に類似したトークン埋め込みの重み付け平均を用いて,ターゲット言語のトークン埋め込みを初期化することにより,高リソースのモノリンガルLLMを未知のターゲット言語に適応することに焦点を当てる。
複数のスワップ可能な言語モデリングヘッドと埋め込みテーブルを備えたモデルであるHydra LLMを導入し、トランストークン化戦略の能力をさらに拡張した。
論文 参考訳(メタデータ) (2024-08-08T08:37:28Z) - A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs [21.49482900744541]
ICLと微調整の3つの言語間移動法について検討した。
LLMにおける支配的な言語を介して、追加の監視信号を追加することで、改善がもたらされることが分かりました。
ターゲット言語を単語の並べ替えに適応させることは、ICLでは有益であるが、その影響は微調整によって減少する。
論文 参考訳(メタデータ) (2024-06-25T08:53:46Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。