論文の概要: Exploring Polyglot Harmony: On Multilingual Data Allocation for Large Language Models Pretraining
- arxiv url: http://arxiv.org/abs/2509.15556v1
- Date: Fri, 19 Sep 2025 03:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.979451
- Title: Exploring Polyglot Harmony: On Multilingual Data Allocation for Large Language Models Pretraining
- Title(参考訳): 多言語ハーモニーの探索:大規模言語モデルの事前学習のための多言語データアロケーションについて
- Authors: Ping Guo, Yubing Ren, Binbin Liu, Fengze Liu, Haobin Lin, Yifan Zhang, Bingni Zhang, Taifeng Wang, Yin Zheng,
- Abstract要約: 本稿では,多言語データアロケーションを体系的に最適化する新しいフレームワークであるClimbを紹介する。
Climbの中核となるのは、言語間の相互作用を意識した言語比率を導入し、言語間の依存関係をキャプチャすることで、各言語の効果的なアロケーションを明示的に定量化している。
大規模な実験により、Climbは様々な多言語間相互作用を正確に測定できることを確認した。
- 参考スコア(独自算出の注目度): 16.590296049892576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become integral to a wide range of applications worldwide, driving an unprecedented global demand for effective multilingual capabilities. Central to achieving robust multilingual performance is the strategic allocation of language proportions within training corpora. However, determining optimal language ratios is highly challenging due to intricate cross-lingual interactions and sensitivity to dataset scale. This paper introduces Climb (Cross-Lingual Interaction-aware Multilingual Balancing), a novel framework designed to systematically optimize multilingual data allocation. At its core, Climb introduces a cross-lingual interaction-aware language ratio, explicitly quantifying each language's effective allocation by capturing inter-language dependencies. Leveraging this ratio, Climb proposes a principled two-step optimization procedure--first equalizing marginal benefits across languages, then maximizing the magnitude of the resulting language allocation vectors--significantly simplifying the inherently complex multilingual optimization problem. Extensive experiments confirm that Climb can accurately measure cross-lingual interactions across various multilingual settings. LLMs trained with Climb-derived proportions consistently achieve state-of-the-art multilingual performance, even achieving competitive performance with open-sourced LLMs trained with more tokens.
- Abstract(参考訳): 大規模言語モデル(LLM)は、世界中の広範囲のアプリケーションに不可欠なものとなり、効果的な多言語機能に対する前例のない世界的な需要を生み出している。
堅牢な多言語パフォーマンスの実現の中心は、トレーニングコーパス内の言語比率の戦略的割り当てである。
しかし、言語間相互作用が複雑であり、データセットスケールに対する感度が高いため、最適な言語比を決定することは極めて困難である。
本稿では,Climb (Cross-Lingual Interaction-aware Multilingual Balancing)を紹介する。
Climbの中核となるのは、言語間の相互作用を意識した言語比率を導入し、言語間の依存関係をキャプチャすることで、各言語の効果的なアロケーションを明示的に定量化している。
この比を利用して、Climbは原則化された2段階の最適化手順を提案し、まず言語間での利得を等しくし、次に結果の言語割当ベクトルの大きさを最大化する - 本質的に複雑な多言語最適化問題を単純化する。
大規模な実験により、Climbは様々な多言語間相互作用を正確に測定できることを確認した。
Climb由来の比率でトレーニングされたLLMは、最先端の多言語のパフォーマンスを一貫して達成し、より多くのトークンでトレーニングされたオープンソースのLLMと競合するパフォーマンスを実現している。
関連論文リスト
- Bridging Language Gaps: Enhancing Few-Shot Language Adaptation [32.157041759856]
言語資源の格差は、多言語NLPにおける課題となっている。
高リソース言語は広範なデータから恩恵を受ける一方、低リソース言語は効果的なトレーニングに十分なデータを持っていない。
我々のContrastive Language Alignment with Prompting (CoLAP) 法は、コントラスト学習と言語間表現を統合することで、このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-26T22:49:17Z) - Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。
性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文 参考訳(メタデータ) (2024-10-15T20:29:38Z) - Extracting and Combining Abilities For Building Multi-lingual Ability-enhanced Large Language Models [109.60937659029076]
我々は,MAEC という名称の多言語抽出と組み合わせ手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験の結果,MAECは高度能力の抽出と組み合わせを効果的に効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - A Multilingual Modeling Method for Span-Extraction Reading Comprehension [2.4905424368103444]
XLRCと呼ばれる多言語抽出読解手法を提案する。
我々のモデルはCMRC 2018タスクにおいて最先端のベースライン(RoBERTa_Large)よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-31T11:05:30Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。