論文の概要: TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.15449v1
- Date: Tue, 17 Feb 2026 09:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.020569
- Title: TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
- Title(参考訳): TAROT: 大規模言語モデルを用いたコード生成のためのテスト駆動型および能力適応型カリキュラム強化微調整
- Authors: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li,
- Abstract要約: 大規模言語モデル(LLM)はコーディングパラダイムを変えつつありますが、合成的に洗練され、堅牢なコードは依然として重要な課題です。
本稿では,テスト駆動型およびcApability-adaptive cuRriculum reinfOrcement fineTuning (TAROT)を提案する。
- 参考スコア(独自算出の注目度): 26.385183692191873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ビブコーディング(vibe coding)として知られるコーディングパラダイムを変えつつあるが、アルゴリズム的に洗練され、堅牢なコードを合成することは依然として重要な課題である。
LLMの深い推論能力を高めることは、このハードルを克服するために不可欠である。
Reinforcement Fine-Tuning (RFT)は、このニーズに対処するための有望な戦略として登場した。
しかし、既存のほとんどのアプローチは、テストケースに固有の不均一な困難さと粒度を見落とし、報酬信号の不均衡な分布をもたらし、結果としてトレーニング中に勾配の更新がバイアスされる。
そこで我々は,テスト駆動型およびcApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT)を提案する。
TAROTは、各問題に対して4層テストスイート(基本、中間、複雑、エッジ)を体系的に構築し、カリキュラムの設計と評価の難易度を制御したランドスケープを提供する。
重要なことは、TAROTはカリキュラムの進歩を生の報酬スコアから切り離し、インシデントテストケースの難易度の構成ではなく、能力条件付き評価とカリキュラムポリシーのポートフォリオからの原則選択を可能にしている。
この設計は安定した最適化とより効率的な能力獲得を促進する。
大規模な実験結果から、コード生成におけるRFTの最適カリキュラムは、モデル固有の能力と密接に結びついており、より能力の低いモデルでは、容易でハードな進行でより大きなゲインを達成できる一方、より有能なモデルはハードファーストのカリキュラムで優れていることが判明した。
TAROTは、カリキュラム設計をモデルの性能に適応的に調整し、それによって生成されたコードの機能的正確性と堅牢性を一貫して改善する再現可能な方法を提供する。
すべてのコードとデータは、再現性とコミュニティの研究を促進するために、https://github.com/deep-diver/TAROTでリリースされる。
関連論文リスト
- ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。
既存のテスト生成方法は静的データセットに依存している。
我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文 参考訳(メタデータ) (2025-10-16T12:49:25Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - CodeGrad: Integrating Multi-Step Verification with Gradient-Based LLM Refinement [12.792149709662874]
CodeGradは厳密な検証技術を反復生成ループに直接組み込む、原則化されたフレームワークを導入している。
コードを微分可能な変数として扱い、構造化されたフィードバックと数学的制約をテキストの擬似階調に変換する。
我々は,HumanEval,HumanEval+,LiveCodeBenchベンチマーク上でCodeGradを評価する。
論文 参考訳(メタデータ) (2025-08-12T22:03:54Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Should Code Models Learn Pedagogically? A Preliminary Evaluation of Curriculum Learning for Real-World Software Engineering Tasks [2.0072624123275533]
近年の研究では、合成コードの難易度に基づく漸進的な学習により、カリキュラム学習がコード関連タスクのパフォーマンスを向上させることが示されている。
本稿では,コードクローン検出とコード要約のタスクを通じて,事前学習されたコードモデル(CodeT5)がCLの下でどのように学習されるかを検討する。
CodeXGLUEベンチマークに関する実証研究は、これまでの研究と対照的な結果を示し、そのモデルでは破滅的な忘れ込みとショートカット学習の兆候が見られた。
論文 参考訳(メタデータ) (2025-02-06T06:33:08Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。