論文の概要: Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments
- arxiv url: http://arxiv.org/abs/2602.01244v2
- Date: Tue, 03 Feb 2026 14:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.846035
- Title: Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments
- Title(参考訳): 酸化環境からの大規模終端剤軌道生成
- Authors: Siwei Wu, Yizhi Li, Yuyang Song, Wei Zhang, Yang Wang, Riza Batista-Navarro, Xian Yang, Mingjie Tang, Bryan Dai, Jian Yang, Chenghua Lin,
- Abstract要約: 終端型タスクのトレーニングエージェントモデルは、現実的な長距離相互作用を捉える高品質な終端軌道に依存する。
我々は,Dockerに準拠したタスクインスタンスを生成し,エージェントトラジェクトリを実行可能なバリデーションコードで合成する,スケーラブルなパイプラインである textbfTerminalTraj を提案する。
TerminalTrajを使って32KのDockerイメージをキュレートし、8つのドメインにわたる50,733の認証済みターミナルトラジェクトリを生成します。
- 参考スコア(独自算出の注目度): 36.81059045059001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training agentic models for terminal-based tasks critically depends on high-quality terminal trajectories that capture realistic long-horizon interactions across diverse domains. However, constructing such data at scale remains challenging due to two key requirements: \textbf{\emph{Executability}}, since each instance requires a suitable and often distinct Docker environment; and \textbf{\emph{Verifiability}}, because heterogeneous task outputs preclude unified, standardized verification. To address these challenges, we propose \textbf{TerminalTraj}, a scalable pipeline that (i) filters high-quality repositories to construct Dockerized execution environments, (ii) generates Docker-aligned task instances, and (iii) synthesizes agent trajectories with executable validation code. Using TerminalTraj, we curate 32K Docker images and generate 50,733 verified terminal trajectories across eight domains. Models trained on this data with the Qwen2.5-Coder backbone achieve consistent performance improvements on TerminalBench (TB), with gains of up to 20\% on TB~1.0 and 10\% on TB~2.0 over their respective backbones. Notably, \textbf{TerminalTraj-32B} achieves strong performance among models with fewer than 100B parameters, reaching 35.30\% on TB~1.0 and 22.00\% on TB~2.0, and demonstrates improved test-time scaling behavior. All code and data are available at https://github.com/Wusiwei0410/TerminalTraj.
- Abstract(参考訳): 端末ベースタスクのトレーニングエージェントモデルは、様々な領域にわたる現実的な長距離相互作用をキャプチャする高品質な端末軌道に依存している。
しかし、このようなデータを大規模に構築することは、2つの重要な要件のために難しいままである: \textbf{\emph{Executability}}、各インスタンスは適度でしばしば異なるDocker環境を必要とするため、そして \textbf{\emph{Verifiability}}、異種タスクの出力が統一された標準化された検証を妨げているためである。
これらの課題に対処するために,スケーラブルなパイプラインである‘textbf{TerminalTraj}’を提案する。
i)Docker化された実行環境を構築するために高品質なリポジトリをフィルタする。
(ii) Docker準拠のタスクインスタンスを生成し、
三 エージェント軌跡を実行可能な検証コードで合成する。
TerminalTrajを使って32KのDockerイメージをキュレートし、8つのドメインにわたる50,733の認証済みターミナルトラジェクトリを生成します。
Qwen2.5-Coderのバックボーンでトレーニングされたモデルは、TB~1.0で最大20倍、TB~2.0で最大10倍の性能向上を実現している。
特に、 \textbf{TerminalTraj-32B} は 100B パラメータ未満のモデル間で強い性能を達成し、TB~1.0 では 35.30\%、TB~2.0 では 22.00\% に達し、テスト時間スケーリングの振る舞いを改善した。
すべてのコードとデータはhttps://github.com/Wusiwei0410/TerminalTraj.comで入手できる。
関連論文リスト
- Endless Terminals: Scaling RL Environments for Terminal Agents [39.60665149203152]
Endless Terminalsは、人間のアノテーションを使わずに端末用タスクを手続き的に生成する、完全に自律的なパイプラインである。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
これらの改善は人為的なベンチマークに移行する。
論文 参考訳(メタデータ) (2026-01-23T04:39:55Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - From Editor to Dense Geometry Estimator [77.21804448599009]
密度幾何予測のための拡散変換器(DiT)アーキテクチャに基づく高度な編集モデルを適用するフレームワークである textbfFE2E を紹介する。
FE2EはETH3Dデータセットで35%以上のパフォーマンス向上を実現し、100$times$データでトレーニングされたDepthAnythingシリーズを上回っている。
論文 参考訳(メタデータ) (2025-09-04T15:58:50Z) - Distributed Training under Packet Loss [8.613477072763404]
信頼性の低いコネクションを利用するとレイテンシが低下するが、パケットを落としてモデルの精度と収束を犠牲にする可能性がある。
そこで本研究では,パケット損失の正確性と収束性を保証する原理的なエンドツーエンドソリューションを提案する。
この研究は、コミュニケーション効率の高いプロトコルと、現代の大規模モデルの訓練で要求される精度と保証のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-07-02T11:07:20Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。
APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。
機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文 参考訳(メタデータ) (2024-06-26T17:49:11Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。