論文の概要: SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2505.20411v1
- Date: Mon, 26 May 2025 18:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.228034
- Title: SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
- Title(参考訳): SWE-rebench: タスクコレクション自動化パイプラインとソフトウェアエンジニアリングエージェントの評価
- Authors: Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel,
- Abstract要約: LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
- 参考スコア(独自算出の注目度): 34.16732444158405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training data is scarce, especially data that reflects real-world SWE scenarios, where agents must interact with development environments, execute code and adapt behavior based on the outcomes of their actions. Existing datasets are either limited to one-shot code generation or comprise small, manually curated collections of interactive tasks, lacking both scale and diversity. Second, the lack of fresh interactive SWE tasks affects evaluation of rapidly improving models, as static benchmarks quickly become outdated due to contamination issues. To address these limitations, we introduce a novel, automated, and scalable pipeline to continuously extract real-world interactive SWE tasks from diverse GitHub repositories. Using this pipeline, we construct SWE-rebench, a public dataset comprising over 21,000 interactive Python-based SWE tasks, suitable for reinforcement learning of SWE agents at scale. Additionally, we use continuous supply of fresh tasks collected using SWE-rebench methodology to build a contamination-free benchmark for agentic software engineering. We compare results of various LLMs on this benchmark to results on SWE-bench Verified and show that performance of some language models might be inflated due to contamination issues.
- Abstract(参考訳): LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
しかし、この分野を前進させるには2つの重要な課題がある。
エージェントが開発環境と対話し、コードを実行し、アクションの結果に基づいて行動を適用する必要がある。
既存のデータセットはワンショットのコード生成に限られるか、小規模で手作業によるインタラクティブなタスクのコレクションで構成されており、スケールと多様性が欠如している。
第二に、新しい対話型SWEタスクの欠如は、汚染問題により静的ベンチマークが急速に時代遅れになるにつれて、急速に改善されたモデルの評価に影響を及ぼす。
これらの制限に対処するため、さまざまなGitHubリポジトリから現実のインタラクティブなSWEタスクを継続的に抽出する、新しく、自動化され、スケーラブルなパイプラインを導入しました。
このパイプラインを用いて,SWEエージェントの大規模強化学習に適した21,000以上の対話型PythonベースのSWEタスクからなる公開データセットであるSWE-rebenchを構築した。
さらに、SWE-rebench手法を用いて収集した新しいタスクの継続的な供給を利用して、エージェントソフトウェアエンジニアリングのための汚染のないベンチマークを構築する。
本ベンチマークの結果とSWE-bench Verifiedの結果を比較し,汚染問題により言語モデルの性能が膨らむ可能性があることを示す。
関連論文リスト
- SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。
手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。
この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-20T22:37:43Z) - EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environmentsは、エージェントがユーザーの指示を解釈し、連続した空間で長時間の日常的なタスクを実行する必要があるベンチマークである。
Open EnvironmentsにおけるEmbodied Mobile Manipulationは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合します。
We design model, a sophisticated agent system, a LLM with Direct Preference Optimization (DPO), light weighted navigation and operation model, and multiple error detection mechanism。
論文 参考訳(メタデータ) (2025-03-11T16:42:36Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。
SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
論文 参考訳(メタデータ) (2024-12-30T18:15:39Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。
RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。
9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T09:30:02Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。