論文の概要: Endless Terminals: Scaling RL Environments for Terminal Agents
- arxiv url: http://arxiv.org/abs/2601.16443v1
- Date: Fri, 23 Jan 2026 04:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.53926
- Title: Endless Terminals: Scaling RL Environments for Terminal Agents
- Title(参考訳): エンドレス端末:端末エージェントのスケーリングRL環境
- Authors: Kanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos,
- Abstract要約: Endless Terminalsは、人間のアノテーションを使わずに端末用タスクを手続き的に生成する、完全に自律的なパイプラインである。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
これらの改善は人為的なベンチマークに移行する。
- 参考スコア(独自算出の注目度): 39.60665149203152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environments are the bottleneck for self-improving agents. Current terminal benchmarks were built for evaluation, not training; reinforcement learning requires a scalable pipeline, not just a dataset. We introduce Endless Terminals, a fully autonomous pipeline that procedurally generates terminal-use tasks without human annotation. The pipeline has four stages: generating diverse task descriptions, building and validating containerized environments, producing completion tests, and filtering for solvability. From this pipeline we obtain 3255 tasks spanning file operations, log management, data processing, scripting, and database operations. We train agents using vanilla PPO with binary episode level rewards and a minimal interaction loop: no retrieval, multi-agent coordination, or specialized tools. Despite this simplicity, models trained on Endless Terminals show substantial gains: on our held-out dev set, Llama-3.2-3B improves from 4.0% to 18.2%, Qwen2.5-7B from 10.7% to 53.3%, and Qwen3-8B-openthinker-sft from 42.6% to 59.0%. These improvements transfer to human-curated benchmarks: models trained on Endless Terminals show substantial gains on held out human curated benchmarks: on TerminalBench 2.0, Llama-3.2-3B improves from 0.0% to 2.2%, Qwen2.5-7B from 2.2% to 3.4%, and Qwen3-8B-openthinker-sft from 1.1% to 6.7%, in each case outperforming alternative approaches including models with more complex agentic scaffolds. These results demonstrate that simple RL succeeds when environments scale.
- Abstract(参考訳): 環境は自己改善エージェントのボトルネックです。
現在の端末ベンチマークはトレーニングではなく評価のために構築されている。
人間のアノテーションを使わずに端末用タスクを手続き的に生成する完全自律パイプラインであるEndless Terminalsを紹介する。
パイプラインには4つのステージがある: 多様なタスク記述の生成、コンテナ化された環境の構築と検証、完了テストの生成、解決性のためのフィルタリング。
このパイプラインから、ファイル操作、ログ管理、データ処理、スクリプティング、データベース操作にまたがる3255のタスクを取得します。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
この単純さにもかかわらず、Endless Terminalsでトレーニングされたモデルでは、Llama-3.2-3Bは4.0%から18.2%に改善され、Qwen2.5-7Bは10.7%から53.3%に、Qwen3-8B-openthinker-sftは42.6%から59.0%に改善された。
これらの改良は、Endless Terminalsでトレーニングされたモデルでは、保持された人為的なベンチマークで大幅に向上した: TerminalBench 2.0では、Llama-3.2-3Bは0.0%から2.2%に改善され、Qwen2.5-7Bは2.2%から3.4%に、Qwen3-8B-openthinker-sftは1.1%から6.7%に向上した。
これらの結果から, 環境規模が大きくなると単純なRLが成功することが示された。
関連論文リスト
- MAI-UI Technical Report: Real-World Centric Foundation GUI Agents [33.46555542782679]
MAI-UIは、2B、8B、32B、および235B-A22Bを含む全範囲のGUIエージェントのファミリーである。
ネイティブエージェント-ユーザインタラクションの欠如、UIのみの操作の限界、実用的なデプロイメントアーキテクチャの欠如です。
論文 参考訳(メタデータ) (2025-12-26T14:51:52Z) - Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement [8.230420096371407]
我々は、NVIDIAのMixture-of-Experts (MoE) Knowledge AssistantであるNVInfo AIにおけるデータフライホイールの実践的な実装について述べる。
我々は、検索強化世代(RAG)パイプラインの障害に対処し、継続的な学習を可能にするクローズドループシステムを構築した。
ルーティングでは、Llama 3.1Bモデルを微調整8Bモデルに置き換え、96%の精度、モデルサイズ10倍の削減、70%のレイテンシ改善を実現した。
論文 参考訳(メタデータ) (2025-10-30T23:41:06Z) - Agentic Reinforcement Learning for Real-World Code Repair [7.512134741776294]
実際のリポジトリで信頼性の高いコード修正エージェントをトレーニングするという課題に取り組みます。
修正後のビルド検証として成功した検証可能なパイプラインを開発しました。
大規模強化学習のためのスケーラブルな簡易パイプラインを導入した。
論文 参考訳(メタデータ) (2025-10-24T23:25:02Z) - UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z) - Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks [34.8513098099929]
SWE-Factoryは、大規模なGitHubイシュー解決データセットを作成するために設計された、自動パイプラインである。
SWE-Builderは評価環境構築を自動化するマルチエージェントシステムである。
出口符号に基づくグルーピングは手動検査に比べて100%精度が向上する。
論文 参考訳(メタデータ) (2025-06-12T17:54:17Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。