論文の概要: Scaling Laws for Code: Every Programming Language Matters
- arxiv url: http://arxiv.org/abs/2512.13472v1
- Date: Mon, 15 Dec 2025 16:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.739031
- Title: Scaling Laws for Code: Every Programming Language Matters
- Title(参考訳): コードのスケーリング法則: すべてのプログラミング言語が重要である
- Authors: Jian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai,
- Abstract要約: コード大言語モデル(Code LLM)は強力だが、トレーニングにはコストがかかる。
異なるプログラミング言語(PL)は、ベースモデルの性能に大きな影響を及ぼす事前トレーニングの間に様々な影響を与える。
本稿では,多言語コードの事前学習のためのスケーリング法則を初めて体系的に検討する。
- 参考スコア(独自算出の注目度): 73.6302896079007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code large language models (Code LLMs) are powerful but costly to train, with scaling laws predicting performance from model size, data, and compute. However, different programming languages (PLs) have varying impacts during pre-training that significantly affect base model performance, leading to inaccurate performance prediction. Besides, existing works focus on language-agnostic settings, neglecting the inherently multilingual nature of modern software development. Therefore, it is first necessary to investigate the scaling laws of different PLs, and then consider their mutual influences to arrive at the final multilingual scaling law. In this paper, we present the first systematic exploration of scaling laws for multilingual code pre-training, conducting over 1000+ experiments (Equivalent to 336,000+ H800 hours) across multiple PLs, model sizes (0.2B to 14B parameters), and dataset sizes (1T tokens). We establish comprehensive scaling laws for code LLMs across multiple PLs, revealing that interpreted languages (e.g., Python) benefit more from increased model size and data than compiled languages (e.g., Rust). The study demonstrates that multilingual pre-training provides synergistic benefits, particularly between syntactically similar PLs. Further, the pre-training strategy of the parallel pairing (concatenating code snippets with their translations) significantly enhances cross-lingual abilities with favorable scaling properties. Finally, a proportion-dependent multilingual scaling law is proposed to optimally allocate training tokens by prioritizing high-utility PLs (e.g., Python), balancing high-synergy pairs (e.g., JavaScript-TypeScript), and reducing allocation to fast-saturating languages (Rust), achieving superior average performance across all PLs compared to uniform distribution under the same compute budget.
- Abstract(参考訳): コード大言語モデル(Code LLM)は強力だが、トレーニングにはコストがかかり、スケーリング法則はモデルのサイズ、データ、計算からパフォーマンスを予測する。
しかし、異なるプログラミング言語(PL)は、事前学習中に様々な影響を与え、ベースモデルの性能に大きな影響を与え、不正確な性能予測をもたらす。
さらに、既存の作業は言語に依存しない設定に重点を置いており、現代のソフトウェア開発の本質的に多言語性を無視している。
したがって、まず異なるPLのスケーリング法則を調査し、その相互影響を最終多言語スケーリング法則に到達させる必要がある。
本稿では,複数のPL,モデルサイズ (0.2B〜14Bパラメータ),データセットサイズ (1Tトークン) に対して,1000以上の実験(336,000以上のH800時間に相当)を行った。
複数のPLにまたがるコードLLMの包括的なスケーリング法則を確立し、インタプリタ言語(例えばPython)は、コンパイルされた言語(例えばRust)よりも、モデルのサイズとデータの増加から恩恵を受けています。
この研究は、多言語事前学習が、特に構文的に類似したPL間の相乗効果をもたらすことを示した。
さらに、並列ペアリング(コードスニペットとそれらの翻訳を連結する)の事前学習戦略は、優れたスケーリング特性を持つ言語間能力を大幅に向上させる。
最後に、高ユーティリティPL(例えばPython)の優先順位付け、高シネギーペア(例えばJavaScript-TypeScript)のバランスの確保、高速飽和言語(Rust)へのアロケーションの削減によるトレーニングトークンの最適割り当てを提案し、同じ計算予算下での均一分布と比較して、すべてのPLに対して優れた平均性能を実現する。
関連論文リスト
- ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality [45.16490310398125]
我々は,これまでで最大規模の多言語スケーリング法を施行し,合計774の多言語学習実験を行った。
単言語および多言語事前学習のための適応移動スケーリング法(ATLAS)を導入する。
分析では、多言語学習のダイナミクス、言語間の伝達特性、多言語性の呪いについて光を当てた。
論文 参考訳(メタデータ) (2025-10-24T21:45:22Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。
その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。
2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文 参考訳(メタデータ) (2025-01-10T00:10:21Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。
性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文 参考訳(メタデータ) (2024-10-15T20:29:38Z) - Unraveling the Potential of Large Language Models in Code Translation: How Far Are We? [4.616570111453259]
大規模言語モデル(LLM)は様々なタスクにおいて最先端のパフォーマンスを示すが、コード翻訳には苦労する。
コード翻訳タスクにおけるLLMの能力と能力を利用するための大規模な実証的研究を行う。
提案手法は,(1)ソースと対象言語間の中間言語を選択する中間翻訳と,(2)自己生成並列データ上でLPMを微調整する自己学習である。
論文 参考訳(メタデータ) (2024-10-13T12:20:12Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。