Fugu-MT 論文翻訳(概要): Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

論文の概要: Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

arxiv url: http://arxiv.org/abs/2605.06111v1
Date: Thu, 07 May 2026 12:24:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.763458
Title: Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs
Title（参考訳）: Schedule-and-Calibrate: コードLLMのためのユーティリティガイド型マルチタスク強化学習
Authors: Yujia Chen, Yang Ye, Xiao Chu, Yuchi Ma, Cuiyun Gao,
Abstract要約: UTility-driven Coordination を用いたマルチタスクコード強化学習フレームワーク ASTOR を提案する。 ASTORは、全てのタスクにまたがる単一のモデルを改善し、最高のタスクに特化したスペシャリストを9.0%-9.5%、最強のMTRLベースラインを7.5%-12.8%上回った。
参考スコア（独自算出の注目度）: 11.726044374246642
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) with verifiable rewards has proven effective at post-training LLMs for coding, yet deploying separate task-specific specialists incurs costs that scale with the number of tasks, motivating a unified multi-task RL (MTRL) approach. However, existing MTRL methods treat all coding tasks uniformly, relying on fixed data curricula under a shared optimization strategy, ultimately limiting the effectiveness of multi-task training. To address these limitations, we propose ASTOR, a multi-tASk code reinforcement learning framework via uTility-driven coORdination. Centered on task utility, a signal capturing each task learning potential and cross-task synergy, ASTOR comprises two coupled modules: 1) Hierarchical Utility-Routed Data Scheduling module hierarchically allocates training budget and prioritizes informative prompts, steering training toward the most valuable data and 2) Adaptive Utility-Calibrated Policy Optimization module dynamically scales per-task KL regularization, matching update constraints to each tasks current training state. Experiments on two widely-used LLMs across four representative coding tasks demonstrate that ASTOR consistently improves a single model across all tasks, outperforming the best task-specific specialist by 9.0%-9.5% and surpassing the strongest MTRL baseline by 7.5%-12.8%.
Abstract（参考訳）: 検証可能な報酬を持つ強化学習(RL)は、コーディングのためのLLMの訓練後に有効であることが証明されているが、個別のタスク固有のスペシャリストを配置することは、タスク数に応じてスケールするコストを発生させ、MTRL(Multi-task RL)アプローチを動機付けている。しかし、既存のMTRLメソッドは、共有最適化戦略の下で固定データキュリキュラに頼り、全てのコーディングタスクを均一に処理し、最終的にはマルチタスクトレーニングの有効性を制限する。これらの制約に対処するため,UTility-driven Coordination を用いたマルチタスクコード強化学習フレームワーク ASTOR を提案する。タスクユーティリティを中心に、各タスク学習電位とタスク間シナジーをキャプチャする信号は、2つの結合モジュールから構成される。 1)階層的ユーティリティ制御型データスケジューリングモジュールは、トレーニング予算を階層的に配分し、情報的プロンプトを優先し、最も価値のあるデータに向けてトレーニングを運営する。 2) 適応ユーティリティキャリブレーションポリシ最適化モジュールは、タスク毎のKL正規化を動的にスケールし、現在のトレーニング状態ごとに更新制約を一致させる。 4つの代表的なコーディングタスクにまたがる2つの広く使われているLSMの実験では、ASTORは全てのタスクで一貫したモデルの改善を行い、最高のタスクに特化したスペシャリストを9.0%-9.5%、最強のMTRLベースラインを7.5%-12.8%上回った。

論文の概要: Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

関連論文リスト