論文の概要: E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task
- arxiv url: http://arxiv.org/abs/2510.14509v1
- Date: Thu, 16 Oct 2025 09:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.805191
- Title: E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task
- Title(参考訳): E2Edev: エンドツーエンドソフトウェア開発タスクにおける大規模言語モデルのベンチマーク
- Authors: Jingyao Liu, Chen Huang, Zhizhao Guan, Wenqiang Lei, Yang Deng,
- Abstract要約: E2EDevは、(i)ユーザ要件のきめ細かいセット、(ii)要件ごとに対応するPythonのステップ実装を備えた複数のBDDテストシナリオ、(iii)Behaveフレームワーク上に構築された完全に自動化されたテストパイプラインで構成されています。
- 参考スコア(独自算出の注目度): 40.46045741731215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E2EDev comprises (i) a fine-grained set of user requirements, (ii) {multiple BDD test scenarios with corresponding Python step implementations for each requirement}, and (iii) a fully automated testing pipeline built on the Behave framework. To ensure its quality while reducing the annotation effort, E2EDev leverages our proposed Human-in-the-Loop Multi-Agent Annotation Framework (HITL-MAA). {By evaluating various E2ESD frameworks and LLM backbones with E2EDev}, our analysis reveals a persistent struggle to effectively solve these tasks, underscoring the critical need for more effective and cost-efficient E2ESD solutions. Our codebase and benchmark are publicly available at https://github.com/SCUNLP/E2EDev.
- Abstract(参考訳): E2EDev 構成
(i)ユーザ要求のきめ細かいセット。
(ii) 要件ごとに対応するPythonのステップ実装を備えた複数のBDDテストシナリオ。
(iii) Behaveフレームワーク上に構築された完全に自動化されたテストパイプライン。
アノテーションの労力を減らしながらその品質を確保するため、E2EDevは提案したHuman-in-the-Loop Multi-Agent Annotation Framework (HITL-MAA)を活用している。
E2ESD の様々なフレームワークと LLM のバックボーンを E2EDev を用いて評価することにより,これらの課題を効果的に解決し,より効果的でコスト効率のよい E2ESD ソリューションの必要性を浮き彫りにした。
コードベースとベンチマークはhttps://github.com/SCUNLP/E2EDev.comで公開されています。
関連論文リスト
- GenIA-E2ETest: A Generative AI-Based Approach for End-to-End Test Automation [0.3499870393443268]
本稿では、生成AIを利用して自然言語記述からE2Eテストスクリプトを自動生成するGenIA-E2ETestを紹介する。
提案手法は, 完全性, 正確性, 適応性, 堅牢性を評価した。
論文 参考訳(メタデータ) (2025-10-01T15:30:24Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。
人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。
私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-06-10T17:23:33Z) - Feature-Driven End-To-End Test Generation [5.7340627516257525]
AutoE2Eは、セマンティックに意味のある機能駆動型E2EテストケースをWebアプリケーション向けに自動生成する新しいアプローチである。
E2EBenchは、E2Eテストスイートの機能カバレッジを自動的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2024-08-04T01:16:04Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - E2E-AT: A Unified Framework for Tackling Uncertainty in Task-aware
End-to-end Learning [9.741277008050927]
本稿では,機械学習モデルの入力特徴空間と制約付き最適化モデルの両方で生じる不確実性をカバーする統一フレームワークを提案する。
トレーニング中にCOの不確かさを無視することは、一般化エラーの新たな引き金となる。
このフレームワークはロバストな最適化問題として記述され、エンド・ツー・エンドの対角訓練(E2E-AT)によって現実的に解決されている。
論文 参考訳(メタデータ) (2023-12-17T02:23:25Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。