論文の概要: Cross-Lingual Optimization for Language Transfer in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14297v1
- Date: Tue, 20 May 2025 12:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.179162
- Title: Cross-Lingual Optimization for Language Transfer in Large Language Models
- Title(参考訳): 大規模言語モデルにおける言語伝達の言語間相互最適化
- Authors: Jungseob Lee, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim,
- Abstract要約: 大規模言語モデルを他の言語に適応させるには、標準的なアプローチとして教師付き微調整(SFT)を用いるのが一般的である。
我々は,英語能力を維持しつつ,英語中心のLLMを対象言語に効率的に転送するtextbfCross-Lingual Optimization (CLO)を提案する。
- 参考スコア(独自算出の注目度): 6.292905490419766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large language models to other languages typically employs supervised fine-tuning (SFT) as a standard approach. However, it often suffers from an overemphasis on English performance, a phenomenon that is especially pronounced in data-constrained environments. To overcome these challenges, we propose \textbf{Cross-Lingual Optimization (CLO)} that efficiently transfers an English-centric LLM to a target language while preserving its English capabilities. CLO utilizes publicly available English SFT data and a translation model to enable cross-lingual transfer. We conduct experiments using five models on six languages, each possessing varying levels of resource. Our results show that CLO consistently outperforms SFT in both acquiring target language proficiency and maintaining English performance. Remarkably, in low-resource languages, CLO with only 3,200 samples surpasses SFT with 6,400 samples, demonstrating that CLO can achieve better performance with less data. Furthermore, we find that SFT is particularly sensitive to data quantity in medium and low-resource languages, whereas CLO remains robust. Our comprehensive analysis emphasizes the limitations of SFT and incorporates additional training strategies in CLO to enhance efficiency.
- Abstract(参考訳): 大規模言語モデルを他の言語に適応させるには、標準的なアプローチとして教師付き微調整(SFT)を用いるのが一般的である。
しかし、特にデータ制約環境において顕著な現象である、英語のパフォーマンスに対する過度な評価に悩まされることが多い。
これらの課題を克服するために、英文中心のLLMを目標言語に効率よく転送し、その英文能力を保ちながら、その目標言語に効率よく変換する「textbf{Cross-Lingual Optimization (CLO)」を提案する。
CLOは、英語のSFTデータと翻訳モデルを利用して、言語間転送を可能にする。
我々は、6つの言語で5つのモデルを用いて実験を行い、それぞれが様々なレベルのリソースを持っている。
以上の結果から,CLOは目標言語能力の獲得と英語能力の維持において,SFTよりも一貫して優れていた。
注目すべきは、低リソース言語では、わずか3,200のサンプルを持つCLOが6,400のサンプルを持つSFTを超え、より少ないデータでCLOがより良いパフォーマンスを達成できることである。
さらに,中・低リソース言語ではSFTが特にデータ量に敏感であるのに対して,CLOは頑健である。
我々の総合的な分析は、SFTの限界を強調し、CLOに新たなトレーニング戦略を取り入れて効率を向上させる。
関連論文リスト
- Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models [7.321459642283822]
ファインチューニングは、膨大なリソースと計算を必要とせずに、言語モデルの性能を向上させることができる。
LLama-2-7B モデルと Mistral-7B モデルを2つの合成多言語命令チューニングデータセット上で微調整し、モデル性能に与える影響を判定する。
小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
論文 参考訳(メタデータ) (2024-01-15T11:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。