論文の概要: ClawEnvKit: Automatic Environment Generation for Claw-Like Agents
- arxiv url: http://arxiv.org/abs/2604.18543v2
- Date: Tue, 28 Apr 2026 07:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.777058
- Title: ClawEnvKit: Automatic Environment Generation for Claw-Like Agents
- Title(参考訳): ClawEnvKit: Clawライクなエージェントのための環境自動生成
- Authors: Xirui Li, Ming Li, Derry Xu, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou,
- Abstract要約: 我々は、オンデマンドで検証された環境を生成することができる自動生成パイプラインであるClawEnvKitを紹介する。
ClawEnvKitは、(1)自然言語入力から構造化生成パラメータを抽出するパイプライン、(2)タスク仕様、ツールインターフェース、スコアリング設定を生成するジェネレータ、(3)実現可能性、多様性、構造的妥当性、内部整合性を強制するバリデータからなる。
爪のようなエージェントの大規模なベンチマークであるAuto-ClawEvalを構築し、24のカテゴリで1,040の環境を網羅した。
- 参考スコア(独自算出の注目度): 80.4926318403362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing environments for training and evaluating claw-like agents remains a manual, human-intensive process that does not scale. We argue that what is needed is not just a dataset, but an automated pipeline capable of generating diverse, verified environments on demand. To this end, we introduce ClawEnvKit, an autonomous generation pipeline that instantiates this formalism from natural language descriptions. The pipeline comprises three modules: (1) a parser that extracts structured generation parameters from natural language input; (2) a generator that produces the task specification, tool interface, and scoring configuration; and (3) a validator that enforces feasibility, diversity, structural validity, and internal consistency across the generated environments. Using ClawEnvKit, we construct Auto-ClawEval, the first large-scale benchmark for claw-like agents, comprising 1,040 environments across 24 categories. Empirically, Auto-ClawEval matches or exceeds human-curated environments on coherence and clarity at 13,800x lower cost. Evaluated across 4 model families and 8 agent harness frameworks, we find that harness engineering boosts performance by up to 15.7 percentage points over a bare ReAct baseline, completion remains the primary axis of variation with no model saturating the benchmark, and automated generation enables evaluation at a scale previously infeasible. Beyond static benchmarking, ClawEnvKit enables live evaluation: users describe a desired capability in natural language and obtain a verified environment on demand, turning evaluation into a continuous, user-driven process. The same mechanism serves as an on-demand training environment generator, producing task distributions that adapt to an agent's current weaknesses rather than being bounded by existing user logs.
- Abstract(参考訳): 爪のようなエージェントを訓練し評価するための環境を構築することは、手動で人間の集中的なプロセスであり、スケールしない。
必要なのは単なるデータセットではなく、オンデマンドで多様な検証済み環境を生成する自動パイプラインである、と私たちは主張する。
この目的のために、我々はClawEnvKitを紹介した。ClawEnvKitは、自然言語記述からこの形式をインスタンス化する自動生成パイプラインである。
パイプラインは,(1)自然言語入力から構造化生成パラメータを抽出するパーサ,(2)タスク仕様,ツールインターフェース,スコアリング設定を生成するジェネレータ,(3)実行可能性,多様性,構造的妥当性,内部の整合性を強制するバリケータの3つのモジュールから構成される。
ClawEnvKitを使用して、24のカテゴリにわたる1,040の環境を含む、爪のようなエージェントのための最初の大規模ベンチマークであるAuto-ClawEvalを構築した。
実証的に、Auto-ClawEvalは、コヒーレンスと明快さを13,800倍のコストで人為的な環境と一致させたり、超えたりします。
4つのモデルファミリと8つのエージェントハーネスフレームワークで評価され、ハーネスエンジニアリングは、素のReActベースライン上で最大15.7ポイントの性能向上、完了は、ベンチマークを飽和させるモデルなしで、変動の一次軸のままであり、自動生成は、これまで不可能だったスケールでの評価を可能にする。
ユーザは自然言語で望ましい能力を記述し、オンデマンドで検証された環境を取得し、評価を継続的ユーザ駆動のプロセスに変換する。
同じメカニズムがオンデマンドのトレーニング環境ジェネレータとして機能し、既存のユーザログに縛られるのではなく、エージェントの現在の弱点に適応するタスク分散を生成する。
関連論文リスト
- Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning [71.4322853508083]
シミュレーション環境における強化学習の実施は、言語ベースのエージェントを強化するためのコスト効率が高く、スケーラブルな方法を提供する。
これまでの作業は、半自動化された環境合成や、十分な困難を欠いたタスクに限られており、幅や深さがほとんどない。
本稿では,高難易度かつ容易に検証可能なタスクに関連付けられたシミュレーション環境の,自動化されたスケーラブルな合成のための統一パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-28T09:43:11Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。