論文の概要: CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion
- arxiv url: http://arxiv.org/abs/2602.10999v1
- Date: Wed, 11 Feb 2026 16:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.177678
- Title: CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion
- Title(参考訳): CLI-Gym:エージェント環境インバージョンによるスケーラブルなCLIタスク生成
- Authors: Yusong Lin, Haiyang Wang, Shuzhe Wu, Lue Fan, Feiyang Pan, Sanyuan Zhao, Dandan Tu,
- Abstract要約: エージェントコーディングは、例えばコマンドラインインターフェース(CLI)のような実行環境と対話するエージェントを必要とする。
本研究では,環境履歴をシミュレートし,探索するためにエージェントを採用することを提案する。
提案手法はCLI-Gymと命名され, 環境集約型タスク1,655件が抽出され, この種のコレクションとしては最大である。
- 参考スコア(独自算出の注目度): 26.52253286270211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.
- Abstract(参考訳): エージェントコーディングでは、エージェントが実行環境、例えばコマンドラインインターフェース(CLI)と効果的に対話し、依存関係の問題の解決やシステム問題修正などのタスクを完了する必要がある。
しかし、エージェントの能力を高めるために、このような環境集約的なタスクが大規模にどのように得られるかは、まだ解明されていない。
これを解決するために、Dockerfileとエージェントタスクの類似に基づいて、実行フィードバックによってガイドされた環境履歴をシミュレートし、探索するためにエージェントを採用することを提案する。
健全な環境の履歴をトレースすることで、その状態が実行時障害のある以前の状態に逆転し、バグのある状態とそれに対応するエラーメッセージをパックすることでタスクを導出することができる。
提案手法はCLI-Gymと命名され, 環境集約型タスク1,655件が抽出され, この種のコレクションとしては最大である。
さらに、軌道修正が成功し、微細調整されたLiberCoderは、ターミナルベンチにおける+21.1%(46.1%)の絶対的な改善を実現し、様々な強力なベースラインを上回りました。
私たちの知る限り、これは環境集約的なタスクのスケーラブルな導出のための最初の公開パイプラインです。
関連論文リスト
- Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL [35.086788669916594]
大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
既存のアプローチは通常、新しい環境で失敗する前提である事前定義されたタスクコレクションを仮定する。
そこで我々はCuESを提案する。CuESはキュリオシティ駆動環境基盤合成フレームワークで、多様で実行可能で有意義なタスクを自律的に生成する。
論文 参考訳(メタデータ) (2025-12-01T06:11:37Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - Generalizable End-to-End Tool-Use RL with Synthetic CodeGym [52.31172214690965]
エージェントRLのための多目的ツール環境を多種多様な、検証可能な、制御可能な、多目的ツール環境を合成するフレームワークであるCodeGymを紹介する。
CodeGymは、静的コーディングの問題を対話的な環境に書き換え、原子関数やロジックを呼び出し可能なツールに抽出する。
さまざまなサイズのモデルとCodeGymでトレーニングされたチェーン・オブ・コンフィグレーションは、一貫したアウト・オブ・ディストリビューションの一般化性を示す。
論文 参考訳(メタデータ) (2025-09-22T03:03:56Z) - SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [31.921127664873882]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - Repo2Run: Automated Building Executable Environment for Code Repository at Scale [10.143091612327602]
大規模なリポジトリに対して実行可能なテスト環境の構築を自動化するためのエージェントであるRepo2Runを紹介します。
Repo2RunはDockerイメージを反復的にビルドし、建物のフィードバックに基づいてユニットテストを実行し、Dockerfileを合成する。
結果のDockerfileを使用して、コードとテストを実行するDockerコンテナ環境を作成することができる。
論文 参考訳(メタデータ) (2025-02-19T12:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。