論文の概要: EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits
- arxiv url: http://arxiv.org/abs/2511.04486v1
- Date: Thu, 06 Nov 2025 16:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.492168
- Title: EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits
- Title(参考訳): EDIT-Bench: LLMの能力を評価して実世界の命令されたコード編集を実行する
- Authors: Wayne Chi, Valerie Chen, Ryan Shar, Aditya Mittal, Jenny Liang, Wei-Lin Chiang, Anastasios Nikolas Angelopoulos, Ion Stoica, Graham Neubig, Ameet Talwalkar, Chris Donahue,
- Abstract要約: 本稿では,実環境におけるコード編集機能の評価のためのベンチマークであるEDIT-Benchを紹介する。
EDIT-Benchは545の問題、複数の自然言語およびプログラミング言語、および様々な現実世界のユースケースからなる。
モデルの性能は、ユーザ命令のカテゴリによって異なります。
- 参考スコア(独自算出の注目度): 72.23150343093447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instructed code editing, where LLMs directly modify a developer's existing code based on a user instruction, is becoming a widely used interaction mode in AI coding assistants. However, few benchmarks directly evaluate this capability and current datasets often rely on artificial sources. We introduce EDIT-Bench, a benchmark for evaluating LLM code editing capabilities grounded in real-world usage, i.e., user instructions and code contexts collected in the wild. EDIT-Bench comprises of 545 problems, multiple natural and programming languages, and a diverse set of real-world use cases, ranging from resolving errors to adding features. EDIT-Bench introduces context-dependent problems that require the model to understand code context, highlighted code, and cursor position in addition to the user instruction. We evaluate 40 diverse LLMs and observe that EDIT-Bench is a challenging set of problems where only 5 models score over 60%. We find that model performance varies across different categories of user instructions. Further, we find that varying levels of contextual information greatly affect task success rate, with performance varying up to 11%, indicating the importance of evaluating with realistic context.
- Abstract(参考訳): 命令付きコード編集では、LLMがユーザーの命令に基づいて開発者の既存のコードを直接修正するが、AIコーディングアシスタントで広く使われている対話モードになりつつある。
しかし、この能力を直接評価するベンチマークはほとんどなく、現在のデータセットは、しばしば人工的なソースに依存している。
我々は,実世界の利用に根ざしたLLMコード編集機能,すなわち野生で収集されたユーザインストラクションとコードコンテキストを評価するためのベンチマークであるEDIT-Benchを紹介する。
EDIT-Benchは545の問題、複数の自然言語とプログラミング言語、エラーの解決から機能追加まで、さまざまな現実世界のユースケースで構成されている。
EDIT-Benchは、ユーザ命令に加えて、コードコンテキスト、ハイライトされたコード、カーソル位置を理解する必要があるコンテキスト依存の問題を導入している。
我々は40種類のLCMを評価し、EDIT-Benchは5モデルしかスコアが60%を超えない難題であることを示した。
モデルの性能は、ユーザ命令のカテゴリによって異なります。
さらに,コンテキスト情報の変化がタスク成功率に大きく影響し,パフォーマンスが最大11%まで変化していることから,現実的なコンテキストによる評価の重要性が示唆された。
関連論文リスト
- Operational Robustness of LLMs on Code Generation [2.9232837969697965]
現在、大規模言語モデル(LLM)のためのソフトウェア開発において、プログラムコードを生成するために使われるのが一般的である。
本稿では,LLMがコーディングタスクの記述の変化にどれほど敏感であるかを考察する。
このロバスト性を評価するための既存の技術は、自然言語記述の入力データ空間が離散的であるため、コード生成には適さない。
論文 参考訳(メタデータ) (2026-02-21T11:21:13Z) - Wired for Reuse: Automating Context-Aware Code Adaptation in IDEs via LLM-Based Agent [7.631972490231939]
本稿では,RAG(Retrieval-Augmented Generation)インフィルタスクとしてフレーム化されたコード配線のためのエージェントであるWIRLを紹介する。
WIRLは、実世界のコード適応シナリオからなる、注意深くキュレートされた高品質なデータセットで評価する。
論文 参考訳(メタデータ) (2025-07-02T03:00:23Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。