論文の概要: Scaling Laws for Code: A More Data-Hungry Regime
- arxiv url: http://arxiv.org/abs/2510.08702v1
- Date: Thu, 09 Oct 2025 18:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.400091
- Title: Scaling Laws for Code: A More Data-Hungry Regime
- Title(参考訳): コードのスケーリング法則: よりデータ不足のレジーム
- Authors: Xianzhen Luo, Wenzhen Zheng, Qingfu Zhu, Rongyi Zhang, Houyi Li, Siming Huang, YuanTao Fan, Wanxiang Che,
- Abstract要約: 効率的な訓練を導くスケーリング法は、主に自然言語(NL)に基づいて分析される
コードのスケーリング法則に関する大規模な実証的研究は,0.2Bから3.8Bまでのモデルサイズ117回,2Bから128Bまでのトレーニングトークンからなる。
- 参考スコア(独自算出の注目度): 43.20725601738161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code Large Language Models (LLMs) are revolutionizing software engineering. However, scaling laws that guide the efficient training are predominantly analyzed on Natural Language (NL). Given the fundamental differences like strict syntax between code and NL, it is unclear whether these laws are directly applicable to code. To address this gap, we conduct the first large-scale empirical study of scaling laws for code, comprising 117 experimental runs with model sizes from 0.2B to 3.8B and training tokens from 2B to 128B. We fit the Chinchilla law and the Farsser law. First, the results show that the more expressive Farseer law offers greater accuracy. Second, the analysis reveals that Code LLMs scale effectively with model size. Crucially, code represents a more data-hungry regime, requiring a substantially higher data-to-parameter ratio than NL. Finally, two additional sets of experiments on code-NL mixtures show that NL benefits resource-constrained scenarios, but becomes a detriment at higher compute budgets.
- Abstract(参考訳): コード大言語モデル(LLM)は、ソフトウェア工学に革命をもたらしている。
しかしながら、効率的なトレーニングを導くスケーリング法は、主に自然言語(NL)に基づいて分析される。
コードとNLの厳密な構文のような根本的な違いを考えると、これらの法則がコードに直接適用できるかどうかは不明である。
このギャップに対処するため,我々は,0.2Bから3.8Bまでのモデルサイズ117回の実験と,2Bから128Bまでのトレーニングトークンを含む,コードのスケーリング法則に関する大規模な実証的研究を行った。
我々はチンチラ法とファーサー法に適合する。
まず、より表現力のあるFarseer法がより正確であることを示す。
2つ目は、コードLLMがモデルサイズで効果的にスケールできることである。
重要なことは、コードはNLよりもはるかに高いデータ-パラメータ比を必要とする、よりデータ-ハングリーな状態を表している。
最後に、コード-NL混合実験の2つの追加実験は、NLがリソース制約されたシナリオの恩恵を受けるが、より高い計算予算で有害となることを示している。
関連論文リスト
- Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。
我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - LLM-Generated Natural Language Meets Scaling Laws: New Explorations and Data Augmentation Methods [3.333401582174629]
大規模言語モデル(LLMNL)とヒト自然言語(HNL)を本質的に計算するスケーリング法則を導入する。
実験により,LLMNLにおけるマンデルブロットの法則からわずかに逸脱し,HNLにおける複雑性の優位性を浮き彫りにし,言語スタイルに関する解釈的議論を補足する。
そこで本研究では,ZGPTDAと呼ばれる,スケーリング法則に適合したファジィ計算機構を活用する,少数ショットテキスト分類のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T05:40:17Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Scaling Laws Behind Code Understanding Model [4.846512516189021]
コード理解タスクのスケーリング法則について,学習データ,モデルサイズ,計算資源を用いて検討する。
我々は、より多くのコンピューティングリソースを使用して、1.5Bパラメータを持つCoLSBERTという名前の大規模コード理解モデルを大規模データセットでトレーニングする。
論文 参考訳(メタデータ) (2024-02-20T08:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。