論文の概要: Terminal-World: Scaling Terminal-Agent Environments via Agent Skills
- arxiv url: http://arxiv.org/abs/2605.20876v1
- Date: Wed, 20 May 2026 08:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.566733
- Title: Terminal-World: Scaling Terminal-Agent Environments via Agent Skills
- Title(参考訳): ターミナルワールド:エージェントスキルによるターミナルエージェント環境のスケーリング
- Authors: Zihao Cheng, Hongru Wang, Zeming Liu, Xinyi Wang, Xiangrong Zhu, Yuhang Guo, Wei Lin, Jeff Z. Pan, Yunhong Wang,
- Abstract要約: エージェントスキルを中心的な合成プリミティブとして利用する完全自動化パイプラインである Terminal-World を紹介する。
我々は,5,723のトレーニング環境を構築し,端末-ワールド-8B/14B/32Bを6つのベンチマークで評価した。
Terminal-World-32B は Terminal-Bench 2.0 で Nemotron-Terminal-32B を +4.5 Pass@1 (31.5) で上回り、43.8 Pass@3 に達する。
- 参考スコア(独自算出の注目度): 52.39713754337834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Terminal agents extend Large Language Models with the ability to execute tasks directly in command-line environments, but their progress is bottlenecked by the scarcity of high-quality training data. Existing approaches bootstrap from partial sources such as human-defined seeds or GitHub repositories to instantiate one component and then complete the rest, producing tasks confined to narrow seed distributions, environments misaligned with task semantics, and inefficient trajectories from unguided exploration. To address these limitations, we introduce Terminal-World, a fully automated pipeline that uses agent skills as the central synthesis primitive, which jointly encode what to accomplish, when to apply (preconditions and environment state), and how to execute, enabling task instructions, environments, and teacher trajectories to be co-derived. To further broaden the synthesis space, Terminal-World composes skills into skill teams and skill graphs for multi-role and cross-domain task synthesis. Using this pipeline, we construct 5,723 training environments and train Terminal-World-8B/14B/32B, evaluated across 6 benchmarks where the Terminal-World series consistently outperforms terminal-agent baselines. Notably, using the same teacher model and only 1.2% of the training data, Terminal-World-32B surpasses Nemotron-Terminal-32B on Terminal-Bench 2.0 by +4.5 Pass@1 (31.5) and achieves 43.8 Pass@3.
- Abstract(参考訳): ターミナルエージェントは、コマンドライン環境で直接タスクを実行する機能を備えた大規模言語モデルを拡張するが、その進歩は高品質なトレーニングデータの不足によってボトルネックとなる。
既存のアプローチは、人間の定義したシードやGitHubリポジトリなどの部分的なソースからブートストラップして、ひとつのコンポーネントをインスタンス化し、残りを完了する。
これらの制約に対処するために,エージェントスキルを中心的な合成プリミティブとして利用する完全自動化パイプラインである Terminal-World を紹介した。
合成空間をさらに広げるために、Terminal-Worldは、スキルチームとマルチロールおよびクロスドメインタスク合成のためのスキルグラフにスキルを組み込む。
このパイプラインを用いて5,723のトレーニング環境を構築し,端末-ワールド-8B/14B/32Bをトレーニングし,端末-ワールドシリーズが端末-エージェントベースラインを一貫して上回る6つのベンチマークで評価した。
特に、同じ教師モデルとトレーニングデータの1.2%しか使用していないターミナル-ワールド-32Bは、ターミナル-ベンチ2.0のネモトロン-ターミナル-32Bを +4.5 Pass@1 (31.5) で上回り、43.8 Pass@3を達成している。
関連論文リスト
- On Data Engineering for Scaling LLM Terminal Capabilities [62.14352406328365]
最先端の端末エージェントの背後にあるトレーニングデータ戦略はほとんど公表されていない。
端末エージェントのデータエンジニアリングプラクティスの体系的研究を通じて,このギャップに対処する。
当社のパイプラインは,端末タスク用の大規模オープンソースデータセットである Terminal-Corpus を生成する。
論文 参考訳(メタデータ) (2026-02-24T18:51:04Z) - Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents [70.68963723787424]
TermiGenは検証可能な環境とレジリエントな専門家軌道を合成するためのエンドツーエンドパイプラインである。
TermiGen-Qwen2.5-Coder-32B は TerminalBench 上で 31.3% のパスレートを達成した。
論文 参考訳(メタデータ) (2026-02-06T23:56:50Z) - Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments [36.81059045059001]
終端型タスクのトレーニングエージェントモデルは、現実的な長距離相互作用を捉える高品質な終端軌道に依存する。
我々は,Dockerに準拠したタスクインスタンスを生成し,エージェントトラジェクトリを実行可能なバリデーションコードで合成する,スケーラブルなパイプラインである textbfTerminalTraj を提案する。
TerminalTrajを使って32KのDockerイメージをキュレートし、8つのドメインにわたる50,733の認証済みターミナルトラジェクトリを生成します。
論文 参考訳(メタデータ) (2026-02-01T14:09:23Z) - Endless Terminals: Scaling RL Environments for Terminal Agents [39.60665149203152]
Endless Terminalsは、人間のアノテーションを使わずに端末用タスクを手続き的に生成する、完全に自律的なパイプラインである。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
これらの改善は人為的なベンチマークに移行する。
論文 参考訳(メタデータ) (2026-01-23T04:39:55Z) - Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。