論文の概要: TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks
- arxiv url: http://arxiv.org/abs/2605.22535v1
- Date: Thu, 21 May 2026 14:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.294853
- Title: TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks
- Title(参考訳): TerminalWorld: リアルタイムターミナルタスクのベンチマークエージェント
- Authors: Zhaoyang Chu, Jiarui Hu, Xingyu Jiang, Pengyu Zou, Han Li, Chao Peng, Peter O'Hearn, Earl T. Barr, Mark Harman, Federica Sarro, He Ye,
- Abstract要約: TerminalWorldはスケーラブルなデータエンジンで、"in-the-wild"端末からの高忠実度評価タスクを自動的にリバースエンジニアリングする。
エンジンは1,530の検証されたタスクの完全なベンチマークを取得し、18の現実世界のカテゴリにまたがる。
TerminalWorldは、既存のExpert-Verifiedベンチマークとは異なる現実世界の端末機能をキャプチャする。
- 参考スコア(独自算出の注目度): 23.863417507169697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.
- Abstract(参考訳): 端末記録から高忠実度評価タスクを自動的にリバースエンジニアリングするスケーラブルなデータエンジンであるTerminalWorldを紹介する。
80,870の端末記録を処理し、1,530の検証されたタスクの完全なベンチマークを出力し、18の現実世界のカテゴリにまたがる。
これらから、200人の代表者による検証済みのサブセットを手作業でレビューする。
8つのフロンティアモデルと6つのエージェントで検証されたターミナルワールドの総合的なベンチマークによると、現在のシステムは依然として真の端末ワークフローに苦戦しており、最高パスレートは62.5%である。
さらに、ContinationWorldは、既存の専門家によるベンチマーク(例えば、Contination-Bench)とは異なる実世界の端末機能を、スコアと弱い相関しか持たない(Pearson r=0.20)。
自動エンジンにより、ContinationWorldの信頼性とスケーラビリティが向上し、開発者のプラクティスが進化するにつれて、現実の端末環境におけるエージェントの評価が可能になる。
データとコードはhttps://github.com/EuniAI/TerminalWorldで入手できる。
関連論文リスト
- Terminal-World: Scaling Terminal-Agent Environments via Agent Skills [52.39713754337834]
エージェントスキルを中心的な合成プリミティブとして利用する完全自動化パイプラインである Terminal-World を紹介する。
我々は,5,723のトレーニング環境を構築し,端末-ワールド-8B/14B/32Bを6つのベンチマークで評価した。
Terminal-World-32B は Terminal-Bench 2.0 で Nemotron-Terminal-32B を +4.5 Pass@1 (31.5) で上回り、43.8 Pass@3 に達する。
論文 参考訳(メタデータ) (2026-05-20T08:14:51Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - Step-GUI Technical Report [84.83795946544292]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。
また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。
エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文 参考訳(メタデータ) (2025-12-17T13:26:30Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。