論文の概要: Brevity is the soul of wit: Pruning long files for code generation
- arxiv url: http://arxiv.org/abs/2407.00434v1
- Date: Sat, 29 Jun 2024 13:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:15:45.261903
- Title: Brevity is the soul of wit: Pruning long files for code generation
- Title(参考訳): Brevityはウィットの魂:コード生成のために長いファイルを実行する
- Authors: Aaditya K. Singh, Yu Yang, Kushal Tirumala, Mostafa Elhoushi, Ari S. Morcos,
- Abstract要約: 計算に制限のある状況下では、単純な長文ファイルが他の方法より優れていることが分かる。
本手法は,HumanEvalの学習効率を最大2倍に向上させるか,あるいは3.5%の絶対性能向上を達成できる。
- 参考スコア(独自算出の注目度): 19.61423412870527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data curation is commonly considered a "secret-sauce" for LLM training, with higher quality data usually leading to better LLM performance. Given the scale of internet-scraped corpora, data pruning has become a larger and larger focus. Specifically, many have shown that de-duplicating data, or sub-selecting higher quality data, can lead to efficiency or performance improvements. Generally, three types of methods are used to filter internet-scale corpora: embedding-based, heuristic-based, and classifier-based. In this work, we contrast the former two in the domain of finetuning LLMs for code generation. We find that embedding-based methods are often confounded by length, and that a simple heuristic--pruning long files--outperforms other methods in compute-limited regimes. Our method can yield up to a 2x efficiency benefit in training (while matching performance) or a 3.5% absolute performance improvement on HumanEval (while matching compute). However, we find that perplexity on held-out long files can increase, begging the question of whether optimizing data mixtures for common coding benchmarks (HumanEval, MBPP) actually best serves downstream use cases. Overall, we hope our work builds useful intuitions about code data (specifically, the low quality of extremely long code files) provides a compelling heuristic-based method for data pruning, and brings to light questions in how we evaluate code generation models.
- Abstract(参考訳): データキュレーションは一般的にLLMトレーニングの"秘密のソース"と見なされ、高品質なデータは通常LLMのパフォーマンス向上につながる。
インターネットに縛られたコーパスの規模を考えると、データプルーニングはますます注目されている。
具体的には、データの非重複化、あるいは高品質なデータのサブ選択が効率やパフォーマンスの改善につながることが示されている。
一般に、インターネットスケールコーパス(埋め込みベース、ヒューリスティックベース、分類器ベース)をフィルタリングするために3種類の手法が使用される。
本研究では、コード生成のための微調整LDMの領域における前者の2つを対比する。
埋め込みベースの手法は、しばしば長さによって構成され、単純なヒューリスティックな長いファイルが、計算制限付きレシエーションにおいて他の方法より優れていることが判明した。
提案手法は,HumanEvalの学習効率を最大2倍に向上させるか,HumanEvalの絶対性能を3.5%向上させる。
しかし、ホールドアウト長ファイルのパープレキシティは増大し、一般的なコーディングベンチマーク(HumanEval, MBPP)にデータ混合を最適化することが、実際に下流のユースケースに最適なのかという疑問を提起する。
全体として、コードデータに関する有用な直感(特に極端に長いコードファイルの低品質)を構築して、データプルーニングのための説得力のあるヒューリスティックな方法を提供し、コード生成モデルをどのように評価するかという簡単な疑問をもたらしてくれることを願っています。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data [26.836532205017104]
多くのデータセットが深刻なデータ漏洩に悩まされていることが分かりました。
この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。
我々は、LLaMA3から微調整されたモデルのファミリーであるXCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-05T17:46:30Z) - Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文 参考訳(メタデータ) (2024-07-06T10:30:43Z) - Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency [15.593172556501704]
Code-Optimiseは、正確性(パス、フェール)とランタイムの両方を学習信号として組み込んだフレームワークです。
私たちのフレームワークは軽量で堅牢で、オーバーフィッティングを減らすためのソリューションを動的に選択します。
副生成物として、生成した溶液の平均長はMBPPで48%、HumanEvalで23%減少する。
論文 参考訳(メタデータ) (2024-06-18T11:05:37Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Decoding Data Quality via Synthetic Corruptions: Embedding-guided
Pruning of Code Data [22.461461600306688]
この作業は,“低品質”なコードデータの識別と削除に埋め込みを使用することに重点を置いている。
まず, 組込み空間における「低品質」コードの特徴について, 合成汚職を用いて検討する。
Stackデータセットの低品質エントリを識別および削除するために、埋め込みスペースで運用する新しいプルーニングメトリクスを考案する。
論文 参考訳(メタデータ) (2023-12-05T01:19:30Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。