論文の概要: OpenCodeReasoning: Advancing Data Distillation for Competitive Coding
- arxiv url: http://arxiv.org/abs/2504.01943v1
- Date: Wed, 02 Apr 2025 17:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:33.657919
- Title: OpenCodeReasoning: Advancing Data Distillation for Competitive Coding
- Title(参考訳): OpenCodeReasoning:競争力のあるコーディングのためのデータ蒸留の改善
- Authors: Wasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg,
- Abstract要約: 教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。
私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
- 参考スコア(独自算出の注目度): 61.15402517835137
- License:
- Abstract: Since the advent of reasoning-based large language models, many have found great success from distilling reasoning capabilities into student models. Such techniques have significantly bridged the gap between reasoning and standard LLMs on coding tasks. Despite this, much of the progress on distilling reasoning models remains locked behind proprietary datasets or lacks details on data curation, filtering and subsequent training. To address this, we construct a superior supervised fine-tuning (SFT) dataset that we use to achieve state-of-the-art coding capability results in models of various sizes. Our distilled models use only SFT to achieve 61.8% on LiveCodeBench and 24.6% on CodeContests, surpassing alternatives trained with reinforcement learning. We then perform analysis on the data sources used to construct our dataset, the impact of code execution filtering, and the importance of instruction/solution diversity. We observe that execution filtering negatively affected benchmark accuracy, leading us to prioritize instruction diversity over solution correctness. Finally, we also analyze the token efficiency and reasoning patterns utilized by these models. We will open-source these datasets and distilled models to the community.
- Abstract(参考訳): 推論に基づく大規模言語モデルの出現以来、多くの者は推論能力を学生モデルに蒸留することで大きな成功を収めてきた。
このような手法は、コーディングタスクにおける推論と標準LLMのギャップを著しく橋渡ししてきた。
それにもかかわらず、推論モデルの蒸留の進歩は、プロプライエタリなデータセットの裏に留まり、データキュレーションやフィルタリング、その後のトレーニングの詳細が欠けている。
これを解決するために、我々は、様々なサイズのモデルにおいて、最先端のコーディング能力を達成するために使用する優れた教師付き微調整(SFT)データセットを構築した。
我々の蒸留モデルはSFTのみを使用して、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成し、強化学習で訓練された代替品を上回った。
次に、データセット構築に使用するデータソースの分析、コード実行フィルタリングの影響、命令/ソリューションの多様性の重要性について分析する。
我々は,実行フィルタリングがベンチマークの精度に悪影響を及ぼすことを観察し,解の正しさよりも命令の多様性を優先する。
最後に,これらのモデルを用いてトークン効率と推論パターンを解析する。
これらのデータセットと蒸留されたモデルをコミュニティにオープンソース化します。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [30.88999109835329]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。
構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。
我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文 参考訳(メタデータ) (2024-04-16T05:29:14Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。