論文の概要: Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining
- arxiv url: http://arxiv.org/abs/2409.02326v1
- Date: Tue, 3 Sep 2024 22:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:51:59.812708
- Title: Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining
- Title(参考訳): Arctic-SnowCoder: コード事前トレーニングにおける高品質データのデマイズ
- Authors: Yuxiang Wei, Hojae Han, Rajhans Samdani,
- Abstract要約: Arctic-SnowCoder-1.3Bは、555Bトークンで事前訓練されたデータ効率のベースコードモデルである。
限られたデータセットでトレーニングされているにもかかわらず、Arctic-SnowCoderはBigCodeBenchで最先端のパフォーマンスを達成する。
全ての評価されたベンチマークで、アークティック・スノウコーダー-1.3Bは1Tトークンで事前訓練されたスターコーダーBase-3Bを上回った。
- 参考スコア(独自算出の注目度): 3.8608102686867762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have been increasingly demonstrating that high-quality data is crucial for effective pretraining of language models. However, the precise definition of "high-quality" remains underexplored. Focusing on the code domain, we introduce Arctic-SnowCoder-1.3B, a data-efficient base code model pretrained on 555B tokens through three phases of progressively refined data: (1) general pretraining with 500B standard-quality code tokens, preprocessed through basic filtering, deduplication, and decontamination, (2) continued pretraining with 50B high-quality tokens, selected from phase one by a BERT-style quality annotator trained to distinguish good code from random data, using positive examples drawn from high-quality code files, along with instruction data from Magicoder and StarCoder2-Instruct, and (3) enhanced pretraining with 5B synthetic data created by Llama-3.1-70B using phase two data as seeds, adapting the Magicoder approach for pretraining. Despite being trained on a limited dataset, Arctic-SnowCoder achieves state-of-the-art performance on BigCodeBench, a coding benchmark focusing on practical and challenging programming tasks, compared to similarly sized models trained on no more than 1T tokens, outperforming Phi-1.5-1.3B by 36%. Across all evaluated benchmarks, Arctic-SnowCoder-1.3B beats StarCoderBase-3B pretrained on 1T tokens. Additionally, it matches the performance of leading small base code models trained on trillions of tokens. For example, Arctic-SnowCoder-1.3B surpasses StarCoder2-3B, pretrained on over 3.3T tokens, on HumanEval+, a benchmark that evaluates function-level code generation, and remains competitive on BigCodeBench. Our evaluation presents a comprehensive analysis justifying various design choices for Arctic-SnowCoder. Most importantly, we find that the key to high-quality data is its alignment with the distribution of downstream applications.
- Abstract(参考訳): 近年の研究では、高品質なデータが言語モデルの効果的な事前訓練に欠かせないことが証明されている。
しかし、「高品質」の正確な定義はいまだ未定である。
1)500B標準品質のコードトークンを前処理し、基本的なフィルタリング、デデュース、デコンタミネーションを施し、(2)50B高品質のトークンを継続事前トレーニングする。(2) BERTスタイルの品質アノテータでフェーズ1から選択され、高品質のコードファイルからの正の例を使用し、MagicoderとStarCoder2-Instructの命令データと、(3) Llam-31-70Bが生成した5B合成データを使って、2つのデータに適応する。
限られたデータセットでトレーニングされているにもかかわらず、Arctic-SnowCoderは、実用的で挑戦的なプログラミングタスクに焦点を当てたコーディングベンチマークであるBigCodeBenchの最先端のパフォーマンスを達成している。
全ての評価されたベンチマークで、アークティック・スノウコーダー-1.3Bは1Tトークンで事前訓練されたスターコーダーBase-3Bを上回った。
さらに、数兆単位のトークンでトレーニングされた、主要な小さなベースコードモデルのパフォーマンスとも一致します。
例えば、Arctic-SnowCoder-1.3Bは、関数レベルのコード生成を評価し、BigCodeBenchと競合するベンチマークであるHumanEval+上で、3.3Tトークンで事前訓練されたStarCoder2-3Bを上回っている。
本評価では,アークティックスノウコーダの様々な設計選択を正当化する包括的解析を行う。
最も重要な点として、高品質なデータの鍵は、下流アプリケーションの分散と一致していることが分かります。
関連論文リスト
- Let Me DeCode You: Decoder Conditioning with Tabular Data [0.15487122608774898]
本稿では,ラベルから派生した特徴をモデル条件付けに利用し,デコーダを動的にリコンストラクションするDeCodeを提案する。
DeCodeは3次元ラベル形状特徴の学習数値表現による条件付埋め込みの導入による3次元セグメンテーション性能の向上に重点を置いている。
以上の結果から,DeCode は従来の非条件モデルよりも高い性能を示し,計算コストの低減による精度の向上を実現している。
論文 参考訳(メタデータ) (2024-07-12T17:14:33Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - The EarlyBIRD Catches the Bug: On Exploiting Early Layers of Encoder
Models for More Efficient Code Classification [7.205265729540538]
深層NLPモデルの訓練には、かなりの計算資源が必要である。
本稿では,事前学習したトランスフォーマーモデルの初期層から,コードの合成表現を構築するための一般的なアプローチであるEarlyBIRDを提案する。
論文 参考訳(メタデータ) (2023-05-08T16:47:28Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。