Fugu-MT 論文翻訳(概要): LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

論文の概要: LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

arxiv url: http://arxiv.org/abs/2602.14337v1
Date: Sun, 15 Feb 2026 23:12:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 16:22:49.960522
Title: LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces
Title（参考訳）: LongCLI-Bench: コマンドラインインタフェースにおける長距離エージェントプログラミングのための予備ベンチマークと研究
Authors: Yukang Feng, Jianwen Sun, Zelai Yang, Jiaxin Ai, Chuanhao Li, Zizhen Li, Fanrui Zhang, Kang He, Rui Ma, Jifan Lin, Jie Sun, Yang Xiao, Sizhuo Zhou, Wenxiao Wu, Yiming Liu, Pengfei Liu, Yu Qiao, Shenglin Zhang, Kaipeng Zhang,
Abstract要約: LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
参考スコア（独自算出の注目度）: 65.11019654023978
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in AI-assisted programming have empowered agents to execute complex workflows via command-line interfaces, however, existing benchmarks are limited by short task horizons, data contamination from GitHub scraping, and a lack of fine-grained evaluation metrics, fail to rigorously evaluate the long-horizon planning and execution capabilities essential for realistic software engineering. To address these gaps, we introduce LongCLI-Bench, a comprehensive benchmark designed to evaluate agentic capabilities across long-horizon, realistic tasks. We curated 20 high-quality, long-horizon tasks from over 1,000 computer science assignments and real-world workflows, covering four engineering categories: from scratch, feature addition, bug fixing, and refactoring. We propose a dual-set testing protocol for LongCLI-Bench, which measures requirement fulfillment (fail-to-pass) and regression avoidance (pass-to-pass), and incorporates step-level scoring to pinpoint execution failures. Extensive experiments reveal that even state-of-the-art agents achieve pass rates below 20% in LongCLI-Bench. Step-level analysis further indicates that the majority of tasks stall at less than 30% completion, highlighting that critical failures often occur in the early stages. Although self-correction offers marginal gains, human-agent collaboration through plan injection and interactive guidance yields significantly higher improvements. These results highlight that future research must emphasize the development of synergistic human-agent workflows alongside advances in agents' planning and execution capabilities to overcome key challenges in long-horizon task performance.
Abstract（参考訳）: AI支援プログラミングの最近の進歩は、エージェントにコマンドラインインターフェースを通じて複雑なワークフローを実行する権限を与えたが、既存のベンチマークは、タスクの地平線、GitHubのスクラップからのデータの汚染、詳細な評価指標の欠如によって制限されているため、現実的なソフトウェアエンジニアリングに不可欠な長期計画と実行能力の厳格な評価に失敗している。これらのギャップに対処するために、LongCLI-Benchという、長期的かつ現実的なタスクにまたがるエージェント能力を評価するために設計された包括的なベンチマークを紹介します。私たちは、1000以上のコンピュータサイエンスの課題と現実世界のワークフローから20の高品質な長期タスクをキュレートし、スクラッチ、フィーチャーの追加、バグ修正、リファクタリングの4つのエンジニアリングカテゴリをカバーしました。本稿では,要求充足(フェイル・ツー・パス)と回帰回避(パス・ツー・パス)を測定するLongCLI-Benchのデュアルセットテストプロトコルを提案する。大規模な実験により、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成することが明らかとなった。さらに、ステップレベルの分析では、タスクの大部分が30%未満の完了で停止していることが示され、クリティカルな障害が早期に発生することが多いことが強調された。自己補正は限界的な利益をもたらすが、計画注入と対話的なガイダンスによる人間とエージェントの協調は、大幅な改善をもたらす。これらの結果は、長期タスクパフォーマンスにおいて重要な課題を克服するために、エージェントの計画と実行能力の向上とともに、シナジスティックなヒューマンエージェントワークフローの開発を強調すべきであることを示している。

関連論文リスト

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文参考訳（メタデータ） (2026-01-17T01:29:30Z)
NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文参考訳（メタデータ） (2025-12-14T15:12:13Z)
Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation [25.0921056409982]
シングルエージェントGUIエージェントは、ハイレベルな機能と低レベルな実行能力のバランスをとるのに苦労する。統一されたポリシーモデルのトレーニングとは異なり、私たちはハイレベルなスケジューリングモデルのトレーニングに重点を置いています。低レベルのExecutorモデルと統合可能なCoordinator-Executor-State Trackerフレームワークを構築します。
論文参考訳（メタデータ） (2025-11-27T09:01:38Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation [57.12284831164602]
モバイルエージェントは膨大な可能性を示しているが、現在のSoTA(State-of-the-art)エージェントは、現実世界、長期的、クロスアプリケーションタスクに不適切な成功率を示す。本稿では,新しい階層型マルチエージェントフレームワークであるMobile-Agent-RAGを提案する。
論文参考訳（メタデータ） (2025-11-15T15:22:42Z)
UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文参考訳（メタデータ） (2025-09-26T02:04:00Z)
VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文参考訳（メタデータ） (2025-07-07T15:31:36Z)
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents [33.71705923246233]
GSOは、高性能ソフトウェアを開発する際の言語モデルの能力を評価するためのベンチマークである。 SWE-Agentsは5%未満の成功率を達成でき、推論時間スケーリングにおいても改善が限られている。将来の研究を可能にするために、ベンチマークのコードとアーティファクトとエージェントトラジェクトリをリリースします。
論文参考訳（メタデータ） (2025-05-29T17:14:55Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。