Fugu-MT 論文翻訳(概要): TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

論文の概要: TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

arxiv url: http://arxiv.org/abs/2602.15449v1
Date: Tue, 17 Feb 2026 09:29:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-18 16:03:18.020569
Title: TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
Title（参考訳）: TAROT: 大規模言語モデルを用いたコード生成のためのテスト駆動型および能力適応型カリキュラム強化微調整
Authors: Chansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li,
Abstract要約: 大規模言語モデル(LLM)はコーディングパラダイムを変えつつありますが、合成的に洗練され、堅牢なコードは依然として重要な課題です。本稿では,テスト駆動型およびcApability-adaptive cuRriculum reinfOrcement fineTuning (TAROT)を提案する。
参考スコア（独自算出の注目度）: 26.385183692191873
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are changing the coding paradigm, known as vibe coding, yet synthesizing algorithmically sophisticated and robust code still remains a critical challenge. Incentivizing the deep reasoning capabilities of LLMs is essential to overcoming this hurdle. Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy to address this need. However, most existing approaches overlook the heterogeneous difficulty and granularity inherent in test cases, leading to an imbalanced distribution of reward signals and consequently biased gradient updates during training. To address this, we propose Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT systematically constructs, for each problem, a four-tier test suite (basic, intermediate, complex, edge), providing a controlled difficulty landscape for curriculum design and evaluation. Crucially, TAROT decouples curriculum progression from raw reward scores, enabling capability-conditioned evaluation and principled selection from a portfolio of curriculum policies rather than incidental test-case difficulty composition. This design fosters stable optimization and more efficient competency acquisition. Extensive experimental results reveal that the optimal curriculum for RFT in code generation is closely tied to a model's inherent capability, with less capable models achieving greater gains with an easy-to-hard progression, whereas more competent models excel under a hard-first curriculum. TAROT provides a reproducible method that adaptively tailors curriculum design to a model's capability, thereby consistently improving the functional correctness and robustness of the generated code. All code and data are released to foster reproducibility and advance community research at https://github.com/deep-diver/TAROT.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ビブコーディング(vibe coding)として知られるコーディングパラダイムを変えつつあるが、アルゴリズム的に洗練され、堅牢なコードを合成することは依然として重要な課題である。 LLMの深い推論能力を高めることは、このハードルを克服するために不可欠である。 Reinforcement Fine-Tuning (RFT)は、このニーズに対処するための有望な戦略として登場した。しかし、既存のほとんどのアプローチは、テストケースに固有の不均一な困難さと粒度を見落とし、報酬信号の不均衡な分布をもたらし、結果としてトレーニング中に勾配の更新がバイアスされる。そこで我々は,テスト駆動型およびcApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT)を提案する。 TAROTは、各問題に対して4層テストスイート(基本、中間、複雑、エッジ)を体系的に構築し、カリキュラムの設計と評価の難易度を制御したランドスケープを提供する。重要なことは、TAROTはカリキュラムの進歩を生の報酬スコアから切り離し、インシデントテストケースの難易度の構成ではなく、能力条件付き評価とカリキュラムポリシーのポートフォリオからの原則選択を可能にしている。この設計は安定した最適化とより効率的な能力獲得を促進する。大規模な実験結果から、コード生成におけるRFTの最適カリキュラムは、モデル固有の能力と密接に結びついており、より能力の低いモデルでは、容易でハードな進行でより大きなゲインを達成できる一方、より有能なモデルはハードファーストのカリキュラムで優れていることが判明した。 TAROTは、カリキュラム設計をモデルの性能に適応的に調整し、それによって生成されたコードの機能的正確性と堅牢性を一貫して改善する再現可能な方法を提供する。すべてのコードとデータは、再現性とコミュニティの研究を促進するために、https://github.com/deep-diver/TAROTでリリースされる。

関連論文リスト

ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。既存のテスト生成方法は静的データセットに依存している。我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文参考訳（メタデータ） (2025-10-16T12:49:25Z)
Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models [44.17697803306198]
textitCodeSeqは,数列から構築した合成後トレーニングデータセットである。パイプラインは、失敗したテストケースを反映し、反復的な修正を取り入れることで、教師付き微妙なデータを生成する。実験の結果,textitCodeSeqでトレーニングしたモデルでは,様々な推論タスクが改善され,OOD性能が保たれることがわかった。
論文参考訳（メタデータ） (2025-10-16T12:29:40Z)
Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文参考訳（メタデータ） (2025-10-05T07:59:24Z)
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文参考訳（メタデータ） (2025-09-08T17:36:21Z)
CodeGrad: Integrating Multi-Step Verification with Gradient-Based LLM Refinement [12.792149709662874]
CodeGradは厳密な検証技術を反復生成ループに直接組み込む、原則化されたフレームワークを導入している。コードを微分可能な変数として扱い、構造化されたフィードバックと数学的制約をテキストの擬似階調に変換する。我々は,HumanEval,HumanEval+,LiveCodeBenchベンチマーク上でCodeGradを評価する。
論文参考訳（メタデータ） (2025-08-12T22:03:54Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Should Code Models Learn Pedagogically? A Preliminary Evaluation of Curriculum Learning for Real-World Software Engineering Tasks [2.0072624123275533]
近年の研究では、合成コードの難易度に基づく漸進的な学習により、カリキュラム学習がコード関連タスクのパフォーマンスを向上させることが示されている。本稿では,コードクローン検出とコード要約のタスクを通じて,事前学習されたコードモデル(CodeT5)がCLの下でどのように学習されるかを検討する。 CodeXGLUEベンチマークに関する実証研究は、これまでの研究と対照的な結果を示し、そのモデルでは破滅的な忘れ込みとショートカット学習の兆候が見られた。
論文参考訳（メタデータ） (2025-02-06T06:33:08Z)
Model Predictive Task Sampling for Efficient and Robust Adaptation [57.414812940406996]
本稿では,タスク空間と適応リスク分布をブリッジするフレームワークであるモデル予測タスクサンプリング(MPTS)を紹介する。 MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。 MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文参考訳（メタデータ） (2025-01-19T13:14:53Z)
SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文参考訳（メタデータ） (2024-11-17T12:31:04Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。