論文の概要: CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL
- arxiv url: http://arxiv.org/abs/2512.01311v1
- Date: Mon, 01 Dec 2025 06:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.705265
- Title: CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL
- Title(参考訳): CuES: エージェントRLのための好奇心駆動型環境接地型合成フレームワーク
- Authors: Shinji Mai, Yunpeng Zhai, Ziqian Chen, Cheng Chen, Anni Zou, Shuchang Tao, Zhaoyang Liu, Bolin Ding,
- Abstract要約: 大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
既存のアプローチは通常、新しい環境で失敗する前提である事前定義されたタスクコレクションを仮定する。
そこで我々はCuESを提案する。CuESはキュリオシティ駆動環境基盤合成フレームワークで、多様で実行可能で有意義なタスクを自律的に生成する。
- 参考スコア(独自算出の注目度): 35.086788669916594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model based agents are increasingly deployed in complex, tool augmented environments. While reinforcement learning provides a principled mechanism for such agents to improve through interaction, its effectiveness critically depends on the availability of structured training tasks. In many realistic settings, however, no such tasks exist a challenge we term task scarcity, which has become a key bottleneck for scaling agentic RL. Existing approaches typically assume predefined task collections, an assumption that fails in novel environments where tool semantics and affordances are initially unknown. To address this limitation, we formalize the problem of Task Generation for Agentic RL, where an agent must learn within a given environment that lacks predefined tasks. We propose CuES, a Curiosity driven and Environment grounded Synthesis framework that autonomously generates diverse, executable, and meaningful tasks directly from the environment structure and affordances, without relying on handcrafted seeds or external corpora. CuES drives exploration through intrinsic curiosity, abstracts interaction patterns into reusable task schemas, and refines them through lightweight top down guidance and memory based quality control. Across three representative environments, AppWorld, BFCL, and WebShop, CuES produces task distributions that match or surpass manually curated datasets in both diversity and executability, yielding substantial downstream policy improvements. These results demonstrate that curiosity driven, environment grounded task generation provides a scalable foundation for agents that not only learn how to act, but also learn what to learn. The code is available at https://github.com/modelscope/AgentEvolver/research/CuES.
- Abstract(参考訳): 大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
強化学習は、このようなエージェントが相互作用を通じて改善するための原則的なメカニズムを提供するが、その効果は構造化された訓練タスクの可用性に大きく依存する。
しかし、現実的な多くの環境では、そのようなタスクが存在しないことはタスク不足と呼ばれ、エージェントRLをスケーリングする上で重要なボトルネックとなっている。
既存のアプローチでは、ツールのセマンティクスとアベイランスが不明な新しい環境で失敗する前提として、事前に定義されたタスクコレクションを前提とするのが一般的である。
この制限に対処するために,エージェントが予め定義されたタスクを欠いた特定の環境内で学習しなければならないエージェントRLのタスク生成の問題を定式化する。
このフレームワークは,手作り種子や外部コーパスを使わずに,環境構造や余剰品から直接,多様で実行可能で有意義なタスクを自律的に生成する。
CuESは、固有の好奇心による探索を推進し、インタラクションパターンを再利用可能なタスクスキーマに抽象化し、軽量なトップダウンガイダンスとメモリベースの品質管理を通じてそれらを洗練する。
AppWorld、BFCL、WebShopの3つの代表的な環境にまたがって、CuESは、多様性と実行可能性の両方において、手動でキュレートされたデータセットにマッチまたは超えるタスク分散を生成し、相当なダウンストリームポリシーの改善をもたらす。
これらの結果は、好奇心を駆使した、環境に根ざしたタスク生成が、行動の仕方を学ぶだけでなく、何を学ぶかを学ぶエージェントにスケーラブルな基盤を提供することを示した。
コードはhttps://github.com/modelscope/AgentEvolver/research/CuESで公開されている。
関連論文リスト
- Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。