論文の概要: Cross-Lingual Optimization for Language Transfer in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14297v1
- Date: Tue, 20 May 2025 12:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.179162
- Title: Cross-Lingual Optimization for Language Transfer in Large Language Models
- Title(参考訳): 大規模言語モデルにおける言語伝達の言語間相互最適化
- Authors: Jungseob Lee, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim,
- Abstract要約: 大規模言語モデルを他の言語に適応させるには、標準的なアプローチとして教師付き微調整(SFT)を用いるのが一般的である。
我々は,英語能力を維持しつつ,英語中心のLLMを対象言語に効率的に転送するtextbfCross-Lingual Optimization (CLO)を提案する。
- 参考スコア(独自算出の注目度): 6.292905490419766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large language models to other languages typically employs supervised fine-tuning (SFT) as a standard approach. However, it often suffers from an overemphasis on English performance, a phenomenon that is especially pronounced in data-constrained environments. To overcome these challenges, we propose \textbf{Cross-Lingual Optimization (CLO)} that efficiently transfers an English-centric LLM to a target language while preserving its English capabilities. CLO utilizes publicly available English SFT data and a translation model to enable cross-lingual transfer. We conduct experiments using five models on six languages, each possessing varying levels of resource. Our results show that CLO consistently outperforms SFT in both acquiring target language proficiency and maintaining English performance. Remarkably, in low-resource languages, CLO with only 3,200 samples surpasses SFT with 6,400 samples, demonstrating that CLO can achieve better performance with less data. Furthermore, we find that SFT is particularly sensitive to data quantity in medium and low-resource languages, whereas CLO remains robust. Our comprehensive analysis emphasizes the limitations of SFT and incorporates additional training strategies in CLO to enhance efficiency.
- Abstract(参考訳): 大規模言語モデルを他の言語に適応させるには、標準的なアプローチとして教師付き微調整(SFT)を用いるのが一般的である。
しかし、特にデータ制約環境において顕著な現象である、英語のパフォーマンスに対する過度な評価に悩まされることが多い。
これらの課題を克服するために、英文中心のLLMを目標言語に効率よく転送し、その英文能力を保ちながら、その目標言語に効率よく変換する「textbf{Cross-Lingual Optimization (CLO)」を提案する。
CLOは、英語のSFTデータと翻訳モデルを利用して、言語間転送を可能にする。
我々は、6つの言語で5つのモデルを用いて実験を行い、それぞれが様々なレベルのリソースを持っている。
以上の結果から,CLOは目標言語能力の獲得と英語能力の維持において,SFTよりも一貫して優れていた。
注目すべきは、低リソース言語では、わずか3,200のサンプルを持つCLOが6,400のサンプルを持つSFTを超え、より少ないデータでCLOがより良いパフォーマンスを達成できることである。
さらに,中・低リソース言語ではSFTが特にデータ量に敏感であるのに対して,CLOは頑健である。
我々の総合的な分析は、SFTの限界を強調し、CLOに新たなトレーニング戦略を取り入れて効率を向上させる。
関連論文リスト
- Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks [33.2185998586144]
本研究は、アラビア語、英語、インド語にまたがる多言語および単言語大言語モデル(LLM)の性能をベンチマークする。
発見は言語的多様性と資源の可利用性によって引き起こされる顕著なパフォーマンスの違いを示している。
量子化(4ビットと8ビット)は、効率を向上しながらモデルの精度を維持するのに有効であるが、アグレッシブプルーニングは性能を著しく損なう。
論文 参考訳(メタデータ) (2025-07-25T22:35:10Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Semantic Aware Linear Transfer by Recycling Pre-trained Language Models for Cross-lingual Transfer [5.990773821761297]
SALTは、ターゲット言語からの埋め込みをリサイクルする新しい言語間移動技術である。
実験の結果,SALTは他のトランスファー手法よりも優れており,言語適応時の収束の高速化による損失の低減が期待できることがわかった。
論文 参考訳(メタデータ) (2025-05-16T07:30:22Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models [7.321459642283822]
ファインチューニングは、膨大なリソースと計算を必要とせずに、言語モデルの性能を向上させることができる。
LLama-2-7B モデルと Mistral-7B モデルを2つの合成多言語命令チューニングデータセット上で微調整し、モデル性能に与える影響を判定する。
小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
論文 参考訳(メタデータ) (2024-01-15T11:06:43Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。