論文の概要: Endless Terminals: Scaling RL Environments for Terminal Agents
- arxiv url: http://arxiv.org/abs/2601.16443v2
- Date: Tue, 27 Jan 2026 03:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:50.944238
- Title: Endless Terminals: Scaling RL Environments for Terminal Agents
- Title(参考訳): エンドレス端末:端末エージェントのスケーリングRL環境
- Authors: Kanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos,
- Abstract要約: Endless Terminalsは、人間のアノテーションを使わずに端末用タスクを手続き的に生成する、完全に自律的なパイプラインである。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
これらの改善は人為的なベンチマークに移行する。
- 参考スコア(独自算出の注目度): 39.60665149203152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.
- Abstract(参考訳): 環境は自己改善エージェントのボトルネックです。
現在の端末ベンチマークはトレーニングではなく評価のために構築されている。
人間のアノテーションを使わずに端末用タスクを手続き的に生成する完全自律パイプラインであるEndless Terminalsを紹介する。
パイプラインには4つのステージがある: 多様なタスク記述の生成、コンテナ化された環境の構築と検証、完了テストの生成、解決性のためのフィルタリング。
このパイプラインから、ファイル操作、ログ管理、データ処理、スクリプティング、データベース操作にまたがる3255のタスクを取得します。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
この単純さにもかかわらず、Endless Terminalsでトレーニングされたモデルでは、Llama-3.2-3Bは4.0%から18.2%に改善され、Qwen2.5-7Bは10.7%から53.3%に、Qwen3-8B-openthinker-sftは42.6%から59.0%に改善された。
これらの改良は、Endless Terminalsでトレーニングされたモデルでは、保持された人為的なベンチマークで大幅に向上した: TerminalBench 2.0では、Llama-3.2-3Bは0.0%から2.2%に改善され、Qwen2.5-7Bは2.2%から3.4%に、Qwen3-8B-openthinker-sftは1.1%から6.7%に向上した。
これらの結果から, 環境規模が大きくなると単純なRLが成功することが示された。
関連論文リスト
- On Data Engineering for Scaling LLM Terminal Capabilities [62.14352406328365]
最先端の端末エージェントの背後にあるトレーニングデータ戦略はほとんど公表されていない。
端末エージェントのデータエンジニアリングプラクティスの体系的研究を通じて,このギャップに対処する。
当社のパイプラインは,端末タスク用の大規模オープンソースデータセットである Terminal-Corpus を生成する。
論文 参考訳(メタデータ) (2026-02-24T18:51:04Z) - EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments [0.10934862523101825]
我々は,高忠実度強化学習環境におけるAIエージェントの訓練が,トレーニング分布を超えて一般化する能力を生み出すことを示す。
私たちは、Surge AIのエージェントRL環境スイートであるEnterpriseBenchの最初の環境であるCoreCraftを紹介します。
論文 参考訳(メタデータ) (2026-02-18T04:35:46Z) - Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters [169.7981969517903]
Step 3.5 Flashは、フロンティアレベルのエージェントインテリジェンスと計算効率を橋渡しする。
エージェントを構築する上で最も重要なもの、すなわち、シャープな推論と高速で信頼性の高い実行に重点を置いています。
論文 参考訳(メタデータ) (2026-02-11T07:53:51Z) - CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability [50.57373283154859]
CVE-Factoryは、脆弱性タスクを自動変換するエキスパートレベルの品質を実現するための、最初のマルチエージェントフレームワークである。
最新の現実的な脆弱性についても評価され、66.2%の成功が証明されている。
コードセキュリティにおけるエージェントタスクの大規模スケーリングとして,1000以上の実行可能なトレーニング環境を合成する。
論文 参考訳(メタデータ) (2026-02-03T02:27:16Z) - Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments [36.81059045059001]
終端型タスクのトレーニングエージェントモデルは、現実的な長距離相互作用を捉える高品質な終端軌道に依存する。
我々は,Dockerに準拠したタスクインスタンスを生成し,エージェントトラジェクトリを実行可能なバリデーションコードで合成する,スケーラブルなパイプラインである textbfTerminalTraj を提案する。
TerminalTrajを使って32KのDockerイメージをキュレートし、8つのドメインにわたる50,733の認証済みターミナルトラジェクトリを生成します。
論文 参考訳(メタデータ) (2026-02-01T14:09:23Z) - MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.46555542782679]
MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。
ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
論文 参考訳(メタデータ) (2025-12-26T14:51:52Z) - Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement [8.230420096371407]
我々は、NVIDIAのMixture-of-Experts (MoE) Knowledge AssistantであるNVInfo AIにおけるデータフライホイールの実践的な実装について述べる。
我々は、検索強化世代(RAG)パイプラインの障害に対処し、継続的な学習を可能にするクローズドループシステムを構築した。
ルーティングでは、Llama 3.1Bモデルを微調整8Bモデルに置き換え、96%の精度、モデルサイズ10倍の削減、70%のレイテンシ改善を実現した。
論文 参考訳(メタデータ) (2025-10-30T23:41:06Z) - Agentic Reinforcement Learning for Real-World Code Repair [7.512134741776294]
実際のリポジトリで信頼性の高いコード修正エージェントをトレーニングするという課題に取り組みます。
修正後のビルド検証として成功した検証可能なパイプラインを開発しました。
大規模強化学習のためのスケーラブルな簡易パイプラインを導入した。
論文 参考訳(メタデータ) (2025-10-24T23:25:02Z) - UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z) - Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks [34.8513098099929]
SWE-Factoryは、大規模なGitHubイシュー解決データセットを作成するために設計された、自動パイプラインである。
SWE-Builderは評価環境構築を自動化するマルチエージェントシステムである。
出口符号に基づくグルーピングは手動検査に比べて100%精度が向上する。
論文 参考訳(メタデータ) (2025-06-12T17:54:17Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。