Fugu-MT 論文翻訳(概要): Generalizable End-to-End Tool-Use RL with Synthetic CodeGym

論文の概要: Generalizable End-to-End Tool-Use RL with Synthetic CodeGym

arxiv url: http://arxiv.org/abs/2509.17325v1
Date: Mon, 22 Sep 2025 03:03:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-23 18:58:16.218568
Title: Generalizable End-to-End Tool-Use RL with Synthetic CodeGym
Title（参考訳）: 合成符号Gymを用いた汎用ツール・ツー・エンドRL
Authors: Weihua Du, Hailei Gong, Zhan Ling, Kang Liu, Lingfeng Shen, Xuesong Yao, Yufei Xu, Dingyuan Shi, Yiming Yang, Jiecao Chen,
Abstract要約: エージェントRLのための多目的ツール環境を多種多様な、検証可能な、制御可能な、多目的ツール環境を合成するフレームワークであるCodeGymを紹介する。 CodeGymは、静的コーディングの問題を対話的な環境に書き換え、原子関数やロジックを呼び出し可能なツールに抽出する。さまざまなサイズのモデルとCodeGymでトレーニングされたチェーン・オブ・コンフィグレーションは、一貫したアウト・オブ・ディストリビューションの一般化性を示す。
参考スコア（独自算出の注目度）: 52.31172214690965
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Tool-augmented large language models (LLMs), hereafter LLM agents, leverage external tools to solve diverse tasks and interface with the real world. However, current training practices largely rely on supervised fine-tuning (SFT) over static trajectories or reinforcement learning (RL) on narrow tasks, and generalize poorly beyond development settings, leading to brittleness with new tools and unseen workflows. Because code execution reflects many structures of real-world workflows, coding problems provide a natural basis for building agent training environments. Motivated by this, we introduce CodeGym, a scalable framework that synthesizes diverse, verifiable, and controllable multi-turn tool-use environments for agent RL, enabling LLM agents to explore and master various workflows actively. CodeGym rewrites static coding problems into interactive environments by extracting atomic functions or logic into callable tools, yielding verifiable tasks that span various tool-execution workflows. Models of varying sizes and chain-of-thought configurations, trained in CodeGym, exhibit consistent out-of-distribution generalizability; for example, Qwen2.5-32B-Instruct achieves an absolute accuracy gain of 8.7 points on the OOD benchmark $\tau$-Bench. These results highlight CodeGym as a step toward scalable general-purpose RL environments that align with real-world agent workflows.
Abstract（参考訳）: ツール拡張大型言語モデル(LLM)は、LLMエージェントの後、様々なタスクや現実世界とのインタフェースを解決するために外部ツールを活用する。しかしながら、現在のトレーニングプラクティスは、静的な軌跡や狭いタスクでの強化学習(RL)よりも教師付き微調整(SFT)に大きく依存しており、開発設定をはるかに越え、新しいツールや目に見えないワークフローによる不安定さにつながっている。コード実行は現実世界のワークフローの構造を反映しているため、コーディング問題はエージェントのトレーニング環境を構築するための自然な基盤を提供する。エージェントRLのために多種多様な検証可能かつ制御可能なマルチターンツール環境を合成するスケーラブルなフレームワークであるCodeGymを導入し、LLMエージェントが様々なワークフローを積極的に探索しマスターできるようにする。 CodeGymは、静的コーディング問題をインタラクティブな環境に書き直し、アトミック関数やロジックを呼び出し可能なツールに抽出し、様々なツール実行ワークフローにまたがる検証可能なタスクを生成する。例えば、Qwen2.5-32B-Instruct は OOD ベンチマーク $\tau$-Bench で8.7 の精度向上を達成する。これらの結果は、CodeGymを、現実世界のエージェントワークフローと整合するスケーラブルな汎用RL環境へのステップとして強調している。

論文の概要: Generalizable End-to-End Tool-Use RL with Synthetic CodeGym

関連論文リスト