論文の概要: IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2601.20886v2
- Date: Fri, 30 Jan 2026 03:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.311186
- Title: IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks
- Title(参考訳): IDE-Bench: リアルタイムソフトウェアエンジニアリングタスクにおけるIDEエージェントとしての大規模言語モデルの評価
- Authors: Spencer Mateega, Jeff Yang, Tiana Costello, Shaurya Jadhav, Nicole Tian, Agustin Garcinuño,
- Abstract要約: 我々は、生の端末実行を超えるDocker化されたテストハーネスを提示します。
検索、構造化ファイル編集、フルスタックアプリケーションのテストツールに高レベルの抽象化を提供する。
- 参考スコア(独自算出の注目度): 0.37823923040445995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: IDE-Bench is a comprehensive framework for evaluating AI IDE agents on real-world software engineering tasks through an IDE-native tool interface. We present a Dockerized test harness that goes beyond raw terminal execution, granting models a structured tool ecosystem that represents AI-native IDEs like Cursor and Windsurf. By providing high-level abstractions for codebase search, structured file editing, and tools for testing full-stack applications, IDE-Bench evaluates an agent's ability to act as a true engineering collaborator. For evaluation and to prevent training data contamination, we created 80 tasks across eight never-published repositories spanning C/C++, Java, and MERN stacks, representing modern tech stack production scenarios, including feature implementation, bug fixing, refactoring, and performance optimization that mirror daily developer workflows in private codebases. Our benchmark is the first to systematically correlate agent-reported intent with successful project-level modifications in a multi-language, full-stack environment on completely uncontaminated code. We release IDE-Bench and a public leaderboard at: https://ide-bench.com.
- Abstract(参考訳): IDE-Benchは、IDEネイティブのツールインターフェースを通じて、現実世界のソフトウェアエンジニアリングタスクでAI IDEエージェントを評価するための包括的なフレームワークである。
CursorやWindsurfといったAIネイティブIDEを表す構造化ツールエコシステムをモデルに提供しています。
コードベース検索、構造化ファイル編集、フルスタックアプリケーションのテストツールのハイレベルな抽象化を提供することで、IDE-Benchはエージェントが真のエンジニアリングコラボレータとして機能する能力を評価する。
評価とトレーニングデータの汚染を防止するため、C/C++、Java、MERNスタックにまたがる8つの公開されていないリポジトリに80のタスクを作成しました。
我々のベンチマークは、完全に汚染されていないコードのマルチ言語、フルスタック環境において、エージェントが報告した意図とプロジェクトレベルの修正を成功させたことを体系的に関連付ける最初のものである。
IDE-Bench と https://ide-bench.com.com の公開リーダボードをリリースしています。
関連論文リスト
- ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Programming with Pixels: Can Computer-Use Agents do Software Engineering? [24.011063667060792]
$textttProgramming with Pixels$ (PwP)は、ソフトウェアエンジニアリングのための初めての総合的なコンピュータ利用環境である。
PwPは、一般のコンピュータ利用エージェントがスペシャリストレベルのパフォーマンスに達するかどうかをベンチマークするための自然なドメインとしてソフトウェア工学を確立している。
論文 参考訳(メタデータ) (2025-02-24T18:41:33Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Tool-Augmented LLMs as a Universal Interface for IDEs [0.768721532845575]
自然言語対話とコード生成の両方が可能な大規模言語モデル(LLM)は、統合開発環境(IDE)の概念の陳腐化を論じる。
ユーザコマンドで複数のIDE機能を含む複雑なアクションを実行でき、オプションやアクションを検索する際の面倒な作業のユーザエクスペリエンスを削除できるモデルを構想する。
論文 参考訳(メタデータ) (2024-02-18T16:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。