論文の概要: LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs
- arxiv url: http://arxiv.org/abs/2504.14655v1
- Date: Sun, 20 Apr 2025 15:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 21:03:55.655235
- Title: LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs
- Title(参考訳): LeetCodeDataset: コードLLMのロバスト評価と効率的なトレーニングのための一時的なデータセット
- Authors: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu,
- Abstract要約: LeetCodeDatasetは、コード生成モデルの評価とトレーニングのための高品質なベンチマークである。
データセットと評価フレームワークはHugging FaceとGithubで公開されている。
- 参考スコア(独自算出の注目度): 12.412316728679167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.
- Abstract(参考訳): 我々は、コード生成モデルの評価とトレーニングのための高品質なベンチマークであるLeetCodeDatasetを紹介し、LLM研究における2つの重要な課題に対処する。
LeetCode Pythonの問題を、豊富なメタデータ、広範なカバレッジ、100以上のテストケース、時間分割(2024年7月/7月)でキュレートすることで、我々のデータセットは汚染のない評価と効率的な教師付き微調整(SFT)を可能にします。
実験の結果、推論モデルは非推論モデルよりも大幅に優れており、SFTは2.6Kのモデル生成ソリューションしか持たず、110Kのサンプルに匹敵する性能を実現している。
データセットと評価フレームワークはHugging FaceとGithubで公開されている。
関連論文リスト
- Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination [18.006532081289627]
潜在的なデータ汚染下でのコードLLMを評価するための新しいベンチマークスイートであるツールを提案する。
ツールは複数のエージェントを使用して、コアロジックを変更することなくコンテキストを抽出し、変更し、意味的に等価なバリエーションを生成する。
その結果、ツールが汚染リスク下での推論能力を効果的にベンチマークし、多様な問題セットを生成し、一貫性と信頼性を保証できることが判明した。
論文 参考訳(メタデータ) (2025-03-06T06:56:59Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで一般的な選択肢となっている。
LLMの相当な計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。
本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。
論文 参考訳(メタデータ) (2024-04-17T08:16:48Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。