論文の概要: Scaling Laws Behind Code Understanding Model
- arxiv url: http://arxiv.org/abs/2402.12813v1
- Date: Tue, 20 Feb 2024 08:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:20:49.533693
- Title: Scaling Laws Behind Code Understanding Model
- Title(参考訳): コード理解モデルの背後にあるスケーリング法則
- Authors: Jiayi Lin, Hande Dong, Yutao Xie, Lei Zhang
- Abstract要約: コード理解タスクのスケーリング法則について,学習データ,モデルサイズ,計算資源を用いて検討する。
我々は、より多くのコンピューティングリソースを使用して、1.5Bパラメータを持つCoLSBERTという名前の大規模コード理解モデルを大規模データセットでトレーニングする。
- 参考スコア(独自算出の注目度): 4.846512516189021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling law is becoming a fundamental law in many machine learning areas.
That is, test error falls off with the power law when increasing training data,
model size, and computing resource. However, whether this law is suitable for
the task of code understanding is not well studied, and most current language
models for code understanding are about 100M parameters, which are relatively
"small" compared to large language models. In this paper, we conduct extensive
experiments to investigate the scaling law for the code understanding task by
varying training data, model size, and computing resource. We validate that the
test error of code understanding models falls off with the power law when using
larger models, indicating that the scaling law is suitable for the code
understanding task. Besides, we apply different scales of models to two
downstream code understanding tasks, and find that the performance increases
with larger scale of models. Finally, we train a large-scale code understanding
model named CoLSBERT with 1.5B parameters on a large dataset using more
computing resource, which outperforms previous work by a large margin. We will
release our code and the CoLSBERT model when our paper is published.
- Abstract(参考訳): スケーリング法則は多くの機械学習分野で基本法則になりつつある。
つまり、トレーニングデータ、モデルサイズ、コンピューティングリソースを増加させる際のテストエラーは、電力法則に反する。
しかし、この法則がコード理解のタスクに適しているかはよく研究されておらず、コード理解の現在の言語モデルは、大言語モデルに比べて比較的「小さい」約1億のパラメータである。
本稿では,トレーニングデータ,モデルサイズ,計算資源の多種多様化によるコード理解タスクのスケーリング則の検討を行う。
コード理解モデルのテストエラーが、より大きなモデルを使用する場合の電力則に違反していることを確認し、コード理解タスクにスケーリング則が適していることを示す。
さらに、異なるモデルのスケールを2つの下流コード理解タスクに適用し、より大きなスケールのモデルで性能が向上することを確認する。
最後に、より多くの計算リソースを使用して、大規模データセット上で1.5bのパラメータを持つcolsbertという大規模なコード理解モデルをトレーニングします。
論文が公開されたら、コードとCoLSBERTモデルをリリースします。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Greener yet Powerful: Taming Large Code Generation Models with
Quantization [47.734976584580224]
事前訓練された大規模なディープラーニングモデルは、コード生成の境界を大幅に押し下げた。
その大きな力にもかかわらず、膨大な数のモデルパラメータが、通常のソフトウェア開発環境でそれらを適用することに重大な脅威をもたらします。
モデル圧縮はこれらの課題に対処するための有望なアプローチである。
論文 参考訳(メタデータ) (2023-03-09T16:25:51Z) - Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。
私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-12-14T10:24:50Z) - Understanding Scaling Laws for Recommendation Models [1.6283945233720964]
DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)の実証スケーリング法則について検討する。
データ、パラメータ、計算の3つの異なるリソース次元に沿ってスケーリング効率を特徴付ける。
パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが出現するまでは、データスケーリングが先進的な道であることを示す。
論文 参考訳(メタデータ) (2022-08-17T19:13:17Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。