論文の概要: Decoding Data Quality via Synthetic Corruptions: Embedding-guided
Pruning of Code Data
- arxiv url: http://arxiv.org/abs/2312.02418v1
- Date: Tue, 5 Dec 2023 01:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:16:17.481552
- Title: Decoding Data Quality via Synthetic Corruptions: Embedding-guided
Pruning of Code Data
- Title(参考訳): 合成崩壊によるデータ品質のデコード:コードデータの埋め込み誘導プルーニング
- Authors: Yu Yang, Aaditya K. Singh, Mostafa Elhoushi, Anas Mahmoud, Kushal
Tirumala, Fabian Gloeckle, Baptiste Rozi\`ere, Carole-Jean Wu, Ari S. Morcos,
Newsha Ardalani
- Abstract要約: この作業は,“低品質”なコードデータの識別と削除に埋め込みを使用することに重点を置いている。
まず, 組込み空間における「低品質」コードの特徴について, 合成汚職を用いて検討する。
Stackデータセットの低品質エントリを識別および削除するために、埋め込みスペースで運用する新しいプルーニングメトリクスを考案する。
- 参考スコア(独自算出の注目度): 22.461461600306688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code datasets, often collected from diverse and uncontrolled sources such as
GitHub, potentially suffer from quality issues, thereby affecting the
performance and training efficiency of Large Language Models (LLMs) optimized
for code generation. Previous studies demonstrated the benefit of using
embedding spaces for data pruning, but they mainly focused on duplicate removal
or increasing variety, and in other modalities, such as images. Our work
focuses on using embeddings to identify and remove "low-quality" code data.
First, we explore features of "low-quality" code in embedding space, through
the use of synthetic corruptions. Armed with this knowledge, we devise novel
pruning metrics that operate in embedding space to identify and remove
low-quality entries in the Stack dataset. We demonstrate the benefits of this
synthetic corruption informed pruning (SCIP) approach on the well-established
HumanEval and MBPP benchmarks, outperforming existing embedding-based methods.
Importantly, we achieve up to a 3% performance improvement over no pruning,
thereby showing the promise of insights from synthetic corruptions for data
pruning.
- Abstract(参考訳): githubのような多様で制御されていないソースから収集されるコードデータセットは品質の問題に直面する可能性があり、コード生成に最適化された大規模言語モデル(llm)のパフォーマンスとトレーニング効率に影響を与える。
従来の研究では、埋め込み空間をデータプルーニングに利用することの利点が示されていたが、主に重複除去や多様性の増加、画像などの他のモダリティに焦点を当てていた。
コードデータの識別と削除に組込みを使うことに重点を置いています。
まず,合成腐敗を利用した組込み空間における"低品質"コードの特徴について検討する。
この知識を活かして、スタックデータセットの低品質エントリを識別し削除するために、埋め込みスペースで動作する新しい刈り取りメトリクスを考案します。
我々は,この合成汚職情報処理(SCIP)アプローチの,確立されたHumanEvalおよびMBPPベンチマークに対する利点を実証し,既存の埋め込み方式よりも優れていることを示す。
重要なことは, 刈り取りをせずに最大3%の性能向上を実現し, データ刈り込みにおける合成汚職からの洞察の約束を示すことである。
関連論文リスト
- Synth4Seg -- Learning Defect Data Synthesis for Defect Segmentation using Bi-level Optimization [37.775768735361275]
両レベル最適化に基づく合成欠陥データ生成フレームワークを提案する。
提案手法は, 合成欠陥の貼付に最も有効な位置の学習に有効であることを示す。
また、異なる拡張固有の欠陥データソースの重み付けを学習することで、最大2.6%のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-10-24T07:25:12Z) - Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文 参考訳(メタデータ) (2024-07-06T10:30:43Z) - Brevity is the soul of wit: Pruning long files for code generation [19.61423412870527]
計算に制限のある状況下では、単純な長文ファイルが他の方法より優れていることが分かる。
本手法は,HumanEvalの学習効率を最大2倍に向上させるか,あるいは3.5%の絶対性能向上を達成できる。
論文 参考訳(メタデータ) (2024-06-29T13:08:24Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Rethinking Negative Pairs in Code Search [56.23857828689406]
我々は、重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。
我々は,Soft-InfoNCEが学習したコード表現の分布を制御することと,より正確な相互情報推定の導出に与える影響を分析する。
論文 参考訳(メタデータ) (2023-10-12T06:32:42Z) - Discriminating Human-authored from ChatGPT-Generated Code Via
Discernable Feature Analysis [2.9398911304923447]
本稿では,ChatGPTが生成するコードと,人間が作成したコードとを区別することを目的とする。
時間的・空間的セグメンテーションを用いたデータセット浄化手法を考案し,データセットの変形を緩和する。
データリソースをさらに強化するために、我々は、ChatGPT生成コードの1万行からなる広範囲なデータセットを生成する"コード変換"、"機能変換"、"機能カスタマイズ"技術を採用している。
論文 参考訳(メタデータ) (2023-06-26T03:15:06Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。