論文の概要: Extending LLMs to New Languages: A Case Study of Llama and Persian Adaptation
- arxiv url: http://arxiv.org/abs/2412.13375v1
- Date: Tue, 17 Dec 2024 23:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:53.828501
- Title: Extending LLMs to New Languages: A Case Study of Llama and Persian Adaptation
- Title(参考訳): LLMを新しい言語に拡張する:Llamaとペルシャ適応のケーススタディ
- Authors: Samin Mahdizadeh Sani, Pouya Sadeghi, Thuy-Trang Vu, Yadollah Yaghoobzadeh, Gholamreza Haffari,
- Abstract要約: 我々は,大言語モデル(LLM)に新しい言語,すなわちペルシア語を追加することを研究する。
我々は単言語ペルシャ語のデータの事前学習を含む多段階的アプローチを採用する。
生成タスクと分類タスクにおいて,各段階でのモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 36.92567530333872
- License:
- Abstract: Large language models (LLMs) have made great progress in classification and text generation tasks. However, they are mainly trained on English data and often struggle with low-resource languages. In this study, we explore adding a new language, i.e., Persian, to Llama (a model with a limited understanding of Persian) using parameter-efficient fine-tuning. We employ a multi-stage approach involving pretraining on monolingual Persian data, aligning representations through bilingual pretraining and instruction datasets, and instruction-tuning with task-specific datasets. We evaluate the model's performance at each stage on generation and classification tasks. Our findings suggest that incorporating the Persian language, through bilingual data alignment, can enhance classification accuracy for Persian tasks, with no adverse impact and sometimes even improvements on English tasks. Additionally, the results highlight the model's initial strength as a critical factor when working with limited training data, with cross-lingual alignment offering minimal benefits for the low-resource language. Knowledge transfer from English to Persian has a marginal effect, primarily benefiting simple classification tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、分類とテキスト生成タスクにおいて大きな進歩を遂げた。
しかし、それらは主に英語のデータに基づいて訓練されており、しばしば低リソース言語と戦っている。
本研究では,パラメータ効率のよい微調整を用いた新しい言語,すなわちペルシャ語をラマ語(ペルシア語を限定的に理解するモデル)に追加することを検討する。
我々は、単言語ペルシャ語のデータの事前学習、バイリンガルの事前訓練と命令データセットによる表現の整列、タスク固有のデータセットとの命令チューニングなど、多段階的なアプローチを採用する。
生成タスクと分類タスクにおいて,各段階でのモデルの性能を評価する。
その結果,ペルシャ語をバイリンガルデータアライメント(バイリンガルデータアライメント)によって組み込むことで,ペルシャ語のタスクの分類精度が向上する可能性が示唆された。
さらに、トレーニングデータに制限がある場合、モデルの初歩的な強みを重要要素として強調し、低リソース言語に最小限のメリットをもたらす言語間のアライメントを実現した。
英語からペルシア語への知識伝達は限界的な効果があり、主に単純な分類作業に有利である。
関連論文リスト
- Matina: A Large-Scale 73B Token Persian Text Corpus [1.396406461086233]
既存のペルシアのデータセットは通常小さく、内容の多様性に欠けており、主にウェブログとニュース記事で構成されている。
Matina corpusは72.9Bトークンからなる新しいペルシアのデータセットで、高いデータ品質を確保するために慎重に前処理され、重複している。
論文 参考訳(メタデータ) (2025-02-13T11:22:19Z) - Training Bilingual LMs with Data Constraints in the Targeted Language [17.623676545426477]
本研究では,事前学習データ不足を伴う対象言語における事前学習モデルの性能向上について検討する。
本研究では,データ豊富な補助言語におけるトレーニングとデータ間のパフォーマンスギャップを,対象言語のトレーニングと比較して定量化する。
論文 参考訳(メタデータ) (2024-11-20T02:27:40Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - Efficiently Adapting Pretrained Language Models To New Languages [9.33333013114014]
近年の大規模言語モデル (LLM) は低リソース言語に準最適性能を示す。
我々は,既存の学習済みLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法について検討する。
論文 参考訳(メタデータ) (2023-11-09T20:59:08Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。