Fugu-MT 論文翻訳(概要): IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks

論文の概要: IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks

arxiv url: http://arxiv.org/abs/2601.20886v2
Date: Fri, 30 Jan 2026 03:43:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-02 14:22:45.311186
Title: IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks
Title（参考訳）: IDE-Bench: リアルタイムソフトウェアエンジニアリングタスクにおけるIDEエージェントとしての大規模言語モデルの評価
Authors: Spencer Mateega, Jeff Yang, Tiana Costello, Shaurya Jadhav, Nicole Tian, Agustin Garcinuño,
Abstract要約: 我々は、生の端末実行を超えるDocker化されたテストハーネスを提示します。検索、構造化ファイル編集、フルスタックアプリケーションのテストツールに高レベルの抽象化を提供する。
参考スコア（独自算出の注目度）: 0.37823923040445995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: IDE-Bench is a comprehensive framework for evaluating AI IDE agents on real-world software engineering tasks through an IDE-native tool interface. We present a Dockerized test harness that goes beyond raw terminal execution, granting models a structured tool ecosystem that represents AI-native IDEs like Cursor and Windsurf. By providing high-level abstractions for codebase search, structured file editing, and tools for testing full-stack applications, IDE-Bench evaluates an agent's ability to act as a true engineering collaborator. For evaluation and to prevent training data contamination, we created 80 tasks across eight never-published repositories spanning C/C++, Java, and MERN stacks, representing modern tech stack production scenarios, including feature implementation, bug fixing, refactoring, and performance optimization that mirror daily developer workflows in private codebases. Our benchmark is the first to systematically correlate agent-reported intent with successful project-level modifications in a multi-language, full-stack environment on completely uncontaminated code. We release IDE-Bench and a public leaderboard at: https://ide-bench.com.
Abstract（参考訳）: IDE-Benchは、IDEネイティブのツールインターフェースを通じて、現実世界のソフトウェアエンジニアリングタスクでAI IDEエージェントを評価するための包括的なフレームワークである。 CursorやWindsurfといったAIネイティブIDEを表す構造化ツールエコシステムをモデルに提供しています。コードベース検索、構造化ファイル編集、フルスタックアプリケーションのテストツールのハイレベルな抽象化を提供することで、IDE-Benchはエージェントが真のエンジニアリングコラボレータとして機能する能力を評価する。評価とトレーニングデータの汚染を防止するため、C/C++、Java、MERNスタックにまたがる8つの公開されていないリポジトリに80のタスクを作成しました。我々のベンチマークは、完全に汚染されていないコードのマルチ言語、フルスタック環境において、エージェントが報告した意図とプロジェクトレベルの修正を成功させたことを体系的に関連付ける最初のものである。 IDE-Bench と https://ide-bench.com.com の公開リーダボードをリリースしています。

関連論文リスト

DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle [84.01703913780946]
現実世界のソフトウェアでDevOpsサイクルを扱うには、大規模なプロジェクトを分析し、動的プログラムの振る舞いを理解し、ドメイン固有のツールを活用し、シーケンシャルな決定を行う必要がある。 DevOps-Gymは、コアDevOpsタスク間でAIエージェントを評価するための、最初のエンドツーエンドベンチマークです。
論文参考訳（メタデータ） (2026-01-27T18:43:46Z)
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。 SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文参考訳（メタデータ） (2025-04-11T17:08:02Z)
Programming with Pixels: Can Computer-Use Agents do Software Engineering? [24.011063667060792]
$textttProgramming with Pixels$ (PwP)は、ソフトウェアエンジニアリングのための初めての総合的なコンピュータ利用環境である。 PwPは、一般のコンピュータ利用エージェントがスペシャリストレベルのパフォーマンスに達するかどうかをベンチマークするための自然なドメインとしてソフトウェア工学を確立している。
論文参考訳（メタデータ） (2025-02-24T18:41:33Z)
In-IDE Programming Courses: Learning Software Development in a Real-World Setting [5.330251011543498]
JetBrainsは最近JetBrains Academyプラグインをリリースした。このプラグインを使って少なくとも1コースを修了した学生や開発者に対して,8回の1時間インタビューを行った。
論文参考訳（メタデータ） (2025-01-29T16:34:22Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
OpenHands: An Open Platform for AI Software Developers as Generalist Agents [109.8507367518992]
私たちは、人間の開発者と同じような方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenHandsを紹介します。プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
論文参考訳（メタデータ） (2024-07-23T17:50:43Z)
A New Generation of Intelligent Development Environments [0.0]
プログラミングの実践は、AI支援開発(コパイロット)の導入と、新しいプログラミング言語の作成によって、革命を遂げている。本稿では,統合開発環境を統合開発環境からインテリジェント開発環境へ転換するビジョンを提案する。
論文参考訳（メタデータ） (2024-06-13T20:33:25Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Tool-Augmented LLMs as a Universal Interface for IDEs [0.768721532845575]
自然言語対話とコード生成の両方が可能な大規模言語モデル(LLM)は、統合開発環境(IDE)の概念の陳腐化を論じる。ユーザコマンドで複数のIDE機能を含む複雑なアクションを実行でき、オプションやアクションを検索する際の面倒な作業のユーザエクスペリエンスを削除できるモデルを構想する。
論文参考訳（メタデータ） (2024-02-18T16:32:28Z)
All You Need Is Logs: Improving Code Completion by Learning from Anonymous IDE Usage Logs [55.606644084003094]
そこで本研究では,IDEのユーザからコンプリート利用ログを収集する手法を提案する。機械学習ベースのモデルをトレーニングして、完成候補をランク付けします。評価の結果,過去のユーザ動作ログに基づいてトレーニングした単純なランキングモデルを用いることで,コード補完エクスペリエンスが大幅に向上した。
論文参考訳（メタデータ） (2022-05-21T23:21:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。