論文の概要: Efficient Code LLM Training via Distribution-Consistent and Diversity-Aware Data Selection
- arxiv url: http://arxiv.org/abs/2507.02378v1
- Date: Thu, 03 Jul 2025 07:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.789122
- Title: Efficient Code LLM Training via Distribution-Consistent and Diversity-Aware Data Selection
- Title(参考訳): 分散一貫性と多様性を考慮したデータ選択による効率的なLLM学習
- Authors: Weijie Lyu, Sheng-Jun Huang, Xuan Xia,
- Abstract要約: 本稿では,トレーニング効率とモデル性能の両方を改善することを目的とした,パラメトリックモデルを用いたコードデータ選択手法を提案する。
提案手法は,92K以上の全サンプリングベースラインに対して2.4% (HumanEval) と2.3% (MBPP) のゲインを達成し,他のサンプリング手法よりも性能と効率が優れている。
- 参考スコア(独自算出の注目度): 29.647174797769015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have significantly improved code generation and program comprehension, accelerating the evolution of software engineering. Current methods primarily enhance model performance by leveraging vast amounts of data, focusing on data quantity while often overlooking data quality, thereby reducing training efficiency. To address this, we introduce an approach that utilizes a parametric model for code data selection, aimed at improving both training efficiency and model performance. Our method optimizes the parametric model to ensure distribution consistency and diversity within the selected subset, guaranteeing high-quality data. Experimental results demonstrate that using only 10K samples, our method achieves gains of 2.4% (HumanEval) and 2.3% (MBPP) over 92K full-sampled baseline, outperforming other sampling approaches in both performance and efficiency. This underscores that our method effectively boosts model performance while significantly reducing computational costs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、コード生成とプログラム理解を大幅に改善し、ソフトウェア工学の進化を加速している。
現在の手法は、大量のデータを活用し、データ量に重点を置いて、しばしばデータ品質を見落とし、トレーニング効率を低下させることで、主にモデルパフォーマンスを向上させる。
そこで本研究では,トレーニング効率とモデル性能の両方を改善することを目的とした,コードデータ選択のためのパラメトリックモデルを用いたアプローチを提案する。
提案手法はパラメトリックモデルを最適化し,選択したサブセット内の分布の整合性と多様性を保証し,高品質なデータを保証する。
実験の結果,本手法は10Kサンプルのみを用い,92Kベースライン以上の2.4% (HumanEval) と2.3% (MBPP) のゲインを達成し,他のサンプリング手法よりも性能と効率が優れていることがわかった。
このことから,本手法は計算コストを大幅に削減しつつ,モデル性能を効果的に向上させることが示唆された。
関連論文リスト
- LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - Data-efficient LLM Fine-tuning for Code Generation [30.441431693349866]
大規模言語モデル(LLM)は、コード生成タスクにおいて大きな可能性を証明している。
既存のアプローチは通常、微調整のために大量の合成データを生成する。
コードに基づくLLMのトレーニングの有効性と効率を向上させるために,データ選択戦略を提案する。
論文 参考訳(メタデータ) (2025-04-17T06:29:28Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs [30.441431693349866]
既存の方法は、微調整のための膨大な量の合成データを生成し、訓練の効率を損なう。
CodeACTはCDAS(Complexity and Diversity Aware Smpling)メソッドを導入し、高品質なトレーニングデータを選択する。
CodeACTはHumanEvalのパフォーマンスが8.6%向上し、トレーニング時間を78%削減し、ピーク時のGPUメモリ使用量を27%削減した。
論文 参考訳(メタデータ) (2024-08-05T02:38:48Z) - Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文 参考訳(メタデータ) (2024-07-06T10:30:43Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。