論文の概要: Generalizable End-to-End Tool-Use RL with Synthetic CodeGym
- arxiv url: http://arxiv.org/abs/2509.17325v1
- Date: Mon, 22 Sep 2025 03:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.218568
- Title: Generalizable End-to-End Tool-Use RL with Synthetic CodeGym
- Title(参考訳): 合成符号Gymを用いた汎用ツール・ツー・エンドRL
- Authors: Weihua Du, Hailei Gong, Zhan Ling, Kang Liu, Lingfeng Shen, Xuesong Yao, Yufei Xu, Dingyuan Shi, Yiming Yang, Jiecao Chen,
- Abstract要約: エージェントRLのための多目的ツール環境を多種多様な、検証可能な、制御可能な、多目的ツール環境を合成するフレームワークであるCodeGymを紹介する。
CodeGymは、静的コーディングの問題を対話的な環境に書き換え、原子関数やロジックを呼び出し可能なツールに抽出する。
さまざまなサイズのモデルとCodeGymでトレーニングされたチェーン・オブ・コンフィグレーションは、一貫したアウト・オブ・ディストリビューションの一般化性を示す。
- 参考スコア(独自算出の注目度): 52.31172214690965
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tool-augmented large language models (LLMs), hereafter LLM agents, leverage external tools to solve diverse tasks and interface with the real world. However, current training practices largely rely on supervised fine-tuning (SFT) over static trajectories or reinforcement learning (RL) on narrow tasks, and generalize poorly beyond development settings, leading to brittleness with new tools and unseen workflows. Because code execution reflects many structures of real-world workflows, coding problems provide a natural basis for building agent training environments. Motivated by this, we introduce CodeGym, a scalable framework that synthesizes diverse, verifiable, and controllable multi-turn tool-use environments for agent RL, enabling LLM agents to explore and master various workflows actively. CodeGym rewrites static coding problems into interactive environments by extracting atomic functions or logic into callable tools, yielding verifiable tasks that span various tool-execution workflows. Models of varying sizes and chain-of-thought configurations, trained in CodeGym, exhibit consistent out-of-distribution generalizability; for example, Qwen2.5-32B-Instruct achieves an absolute accuracy gain of 8.7 points on the OOD benchmark $\tau$-Bench. These results highlight CodeGym as a step toward scalable general-purpose RL environments that align with real-world agent workflows.
- Abstract(参考訳): ツール拡張大型言語モデル(LLM)は、LLMエージェントの後、様々なタスクや現実世界とのインタフェースを解決するために外部ツールを活用する。
しかしながら、現在のトレーニングプラクティスは、静的な軌跡や狭いタスクでの強化学習(RL)よりも教師付き微調整(SFT)に大きく依存しており、開発設定をはるかに越え、新しいツールや目に見えないワークフローによる不安定さにつながっている。
コード実行は現実世界のワークフローの構造を反映しているため、コーディング問題はエージェントのトレーニング環境を構築するための自然な基盤を提供する。
エージェントRLのために多種多様な検証可能かつ制御可能なマルチターンツール環境を合成するスケーラブルなフレームワークであるCodeGymを導入し、LLMエージェントが様々なワークフローを積極的に探索しマスターできるようにする。
CodeGymは、静的コーディング問題をインタラクティブな環境に書き直し、アトミック関数やロジックを呼び出し可能なツールに抽出し、様々なツール実行ワークフローにまたがる検証可能なタスクを生成する。
例えば、Qwen2.5-32B-Instruct は OOD ベンチマーク $\tau$-Bench で8.7 の精度向上を達成する。
これらの結果は、CodeGymを、現実世界のエージェントワークフローと整合するスケーラブルな汎用RL環境へのステップとして強調している。
関連論文リスト
- AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。
しかし、これらのツールは人間の開発者によって事前に実装されなければならない。
論文をコードで自律的にLLM互換のツールに変換するエージェントフレームワークであるToolMakerを提案する。
論文 参考訳(メタデータ) (2025-02-17T11:44:11Z) - ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。