論文の概要: LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering
- arxiv url: http://arxiv.org/abs/2511.13998v1
- Date: Mon, 17 Nov 2025 23:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.842442
- Title: LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering
- Title(参考訳): LoCoBench-Agent: 長期ソフトウェアエンジニアリングにおけるLLMエージェントのインタラクティブベンチマーク
- Authors: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang,
- Abstract要約: textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
- 参考スコア(独自算出の注目度): 90.84806758077536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~\cite{qiu2025locobench} assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce \textbf{LoCoBench-Agent}, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.
- Abstract(参考訳): 大規模言語モデル(LLM)が複雑なソフトウェア開発タスクが可能な高度な自律エージェントへと進化するにつれて、それらの実世界の能力を評価することが重要になる。
LoCoBench~\cite{qiu2025locobench}のような既存のベンチマークは、長いコンテキストのコード理解を評価するが、シングルターン評価に重点を置いており、マルチターンのインタラクティブな性質、ツールの使用パターン、実際のコーディングエージェントが必要とする適応推論をキャプチャできない。
本稿では,LLMエージェントを現実的,長期的ソフトウェアエンジニアリングワークフローで評価するための総合的な評価フレームワークである \textbf{LoCoBench-Agent} を紹介する。
我々のフレームワークは、LoCoBenchの8000のシナリオをインタラクティブなエージェント環境に拡張し、マルチターン会話、ツールの使用効率、エラー復旧、拡張された開発セッション間のアーキテクチャ一貫性の体系的な評価を可能にします。
また,9つの指標を包括的・効率的に評価する手法も導入した。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kトークンから1Mトークンまでの範囲で評価し,長コンテキスト性能の正確な評価を可能にする。
最先端モデルの体系的評価を通じて,(1)顕著な長期的堅牢性を示すエージェント,(2)包括的探索が包括的だが効率を低下させる負の相関関係を持つエージェント,(3)高パフォーマンスエージェントを識別する戦略ツールの使用パターンによって,モデル間での会話効率は劇的に変化している。
ソフトウェアエンジニアリングのための最初のLLMエージェントベンチマークとして、LoCoBench-Agentは、エージェント能力の測定、パフォーマンスギャップの特定、大規模における自律ソフトウェア開発の進歩のための厳格な基盤を確立する。
関連論文リスト
- Estimating the Empowerment of Language Model Agents [4.9877302321739725]
EELMAはマルチターンテキストインタラクションから効果的なエンパワーメントを近似するアルゴリズムである。
我々はEELMAを言語ゲームとスケールアップしたWebブラウザのシナリオの両方で検証する。
論文 参考訳(メタデータ) (2025-09-26T15:46:14Z) - LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering [85.58151741052616]
LoCoBenchは、現実的で複雑なソフトウェア開発シナリオにおいて、長いコンテキストのLLMを評価するために特別に設計されたベンチマークである。
ベンチマークでは,10言語にまたがって8000の評価シナリオを体系的に生成する。
LoCoBenchは8つのタスクカテゴリを導入し、重要なコンテキスト理解機能をキャプチャしている。
論文 参考訳(メタデータ) (2025-09-11T16:55:04Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - TRAIL: Trace Reasoning and Agentic Issue Localization [5.025960714013197]
この研究は、エージェントワークフロートレースに対する堅牢でダイナミックな評価方法の必要性を明確に示している。
我々は,この分類法を用いて構築され,確立されたエージェント・ベンチマークに基づいて構築された148個の大型人名跡(TRAIL)について述べる。
生態学的妥当性を確保するため,単一エージェントシステムとマルチエージェントシステムの両方のトレースをキュレートする。
論文 参考訳(メタデータ) (2025-05-13T14:55:31Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。