論文の概要: Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs
- arxiv url: http://arxiv.org/abs/2605.06111v1
- Date: Thu, 07 May 2026 12:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.763458
- Title: Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs
- Title(参考訳): Schedule-and-Calibrate: コードLLMのためのユーティリティガイド型マルチタスク強化学習
- Authors: Yujia Chen, Yang Ye, Xiao Chu, Yuchi Ma, Cuiyun Gao,
- Abstract要約: UTility-driven Coordination を用いたマルチタスクコード強化学習フレームワーク ASTOR を提案する。
ASTORは、全てのタスクにまたがる単一のモデルを改善し、最高のタスクに特化したスペシャリストを9.0%-9.5%、最強のMTRLベースラインを7.5%-12.8%上回った。
- 参考スコア(独自算出の注目度): 11.726044374246642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with verifiable rewards has proven effective at post-training LLMs for coding, yet deploying separate task-specific specialists incurs costs that scale with the number of tasks, motivating a unified multi-task RL (MTRL) approach. However, existing MTRL methods treat all coding tasks uniformly, relying on fixed data curricula under a shared optimization strategy, ultimately limiting the effectiveness of multi-task training. To address these limitations, we propose ASTOR, a multi-tASk code reinforcement learning framework via uTility-driven coORdination. Centered on task utility, a signal capturing each task learning potential and cross-task synergy, ASTOR comprises two coupled modules: 1) Hierarchical Utility-Routed Data Scheduling module hierarchically allocates training budget and prioritizes informative prompts, steering training toward the most valuable data and 2) Adaptive Utility-Calibrated Policy Optimization module dynamically scales per-task KL regularization, matching update constraints to each tasks current training state. Experiments on two widely-used LLMs across four representative coding tasks demonstrate that ASTOR consistently improves a single model across all tasks, outperforming the best task-specific specialist by 9.0%-9.5% and surpassing the strongest MTRL baseline by 7.5%-12.8%.
- Abstract(参考訳): 検証可能な報酬を持つ強化学習(RL)は、コーディングのためのLLMの訓練後に有効であることが証明されているが、個別のタスク固有のスペシャリストを配置することは、タスク数に応じてスケールするコストを発生させ、MTRL(Multi-task RL)アプローチを動機付けている。
しかし、既存のMTRLメソッドは、共有最適化戦略の下で固定データキュリキュラに頼り、全てのコーディングタスクを均一に処理し、最終的にはマルチタスクトレーニングの有効性を制限する。
これらの制約に対処するため,UTility-driven Coordination を用いたマルチタスクコード強化学習フレームワーク ASTOR を提案する。
タスクユーティリティを中心に、各タスク学習電位とタスク間シナジーをキャプチャする信号は、2つの結合モジュールから構成される。
1)階層的ユーティリティ制御型データスケジューリングモジュールは、トレーニング予算を階層的に配分し、情報的プロンプトを優先し、最も価値のあるデータに向けてトレーニングを運営する。
2) 適応ユーティリティキャリブレーションポリシ最適化モジュールは、タスク毎のKL正規化を動的にスケールし、現在のトレーニング状態ごとに更新制約を一致させる。
4つの代表的なコーディングタスクにまたがる2つの広く使われているLSMの実験では、ASTORは全てのタスクで一貫したモデルの改善を行い、最高のタスクに特化したスペシャリストを9.0%-9.5%、最強のMTRLベースラインを7.5%-12.8%上回った。
関連論文リスト
- Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文 参考訳(メタデータ) (2023-12-26T07:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。