論文の概要: FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding
- arxiv url: http://arxiv.org/abs/2509.22237v1
- Date: Fri, 26 Sep 2025 11:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.402284
- Title: FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding
- Title(参考訳): FeatBench: バイブ符号化の機能実装における符号化エージェントの評価
- Authors: Haorui Chen, Chengze Li, Jia Li,
- Abstract要約: FeatBenchは、機能実装に焦点を当てた、バイブコーディングのための新しいベンチマークである。
FeatBenchは、ベンチマークを進化させるための品質と完全に自動化されたパイプラインを保証するために、マルチレベルのフィルタリングパイプライン上に構築されている。
我々の評価によると、ビブ符号化パラダイムにおける機能実装は重要な課題であり、最高成功率は29.94%である。
- 参考スコア(独自算出の注目度): 11.846768103642583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has given rise to a novel software development paradigm known as "vibe coding," where users interact with coding agents through high-level natural language. However, existing evaluation benchmarks for code generation inadequately assess an agent's vibe coding capabilities. Existing benchmarks are misaligned, as they either require code-level specifications or focus narrowly on issue-solving, neglecting the critical scenario of feature implementation within the vibe coding paradiam. To address this gap, we propose FeatBench, a novel benchmark for vibe coding that focuses on feature implementation. Our benchmark is distinguished by several key features: 1. Pure Natural Language Prompts. Task inputs consist solely of abstract natural language descriptions, devoid of any code or structural hints. 2. A Rigorous & Evolving Data Collection Process. FeatBench is built on a multi-level filtering pipeline to ensure quality and a fully automated pipeline to evolve the benchmark, mitigating data contamination. 3. Comprehensive Test Cases. Each task includes Fail-to-Pass (F2P) and Pass-to-Pass (P2P) tests to verify correctness and prevent regressions. 4. Diverse Application Domains. The benchmark includes repositories from diverse domains to ensure it reflects real-world scenarios. We evaluate two state-of-the-art agent frameworks with four leading LLMs on FeatBench. Our evaluation reveals that feature implementation within the vibe coding paradigm is a significant challenge, with the highest success rate of only 29.94%. Our analysis also reveals a tendency for "aggressive implementation," a strategy that paradoxically leads to both critical failures and superior software design. We release FeatBench, our automated collection pipeline, and all experimental results to facilitate further community research.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、ユーザーがハイレベルな自然言語を通じてコーディングエージェントと対話する"ビブコーディング"として知られる、新しいソフトウェア開発パラダイムを生み出した。
しかし、コード生成のための既存の評価ベンチマークは、エージェントのバイブコーディング能力を不十分に評価する。
既存のベンチマークは、コードレベルの仕様を必要とするか、問題の解決に細心の注意を払って、ビブコーディングパラダイム内の機能実装の致命的なシナリオを無視しているため、不一致である。
このギャップに対処するため、私たちはFeatBenchを提案します。
私たちのベンチマークは、いくつかの重要な特徴によって区別されています。
1.純粋な自然言語のプロンプト。
タスク入力は抽象的な自然言語記述で構成されており、コードや構造的ヒントがない。
2. 厳密で進化的なデータ収集プロセス
FeatBenchは、品質を保証するため、マルチレベルのフィルタリングパイプライン上に構築されており、ベンチマークを進化させるための完全に自動化されたパイプラインにより、データの汚染を軽減している。
総合的な検査事例
各タスクには、Fail-to-Pass(F2P)とPass-to-Pass(P2P)テストが含まれており、正確性を検証し、回帰を防ぐ。
4. 異なるアプリケーションドメイン。
ベンチマークには、現実世界のシナリオを反映するように、さまざまなドメインのリポジトリが含まれている。
FeatBench上に4つのLLMを持つ2つの最先端エージェントフレームワークを評価する。
我々の評価によると、ビブ符号化パラダイムにおける機能実装は重要な課題であり、最高成功率は29.94%である。
私たちの分析では、批判的な失敗と優れたソフトウェア設計の両方をパラドックス的に導く戦略である"攻撃的実装"の傾向も明らかにしています。
FeatBenchは自動コレクションパイプラインであり、さらにコミュニティ調査を促進するための実験結果です。
関連論文リスト
- You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Towards Practical Defect-Focused Automated Code Review [8.370750734081088]
オンラインレコメンデーションサービスの中で、業界レベルのC++を分析しながら、完全な自動化パイプラインを調査します。
1)関連コンテキストの取得,2)キーインクルージョンの改善,3)偽アラーム率(FAR)の低減,4)人間のバグスライシングの統合。
提案手法は, 既往の断層記録からの実世界のマージ要求に基づいて検証され, 従来のLLMよりも2倍, 以前のベースラインより10倍向上した。
論文 参考訳(メタデータ) (2025-05-23T14:06:26Z) - SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。
SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。
実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2025-04-11T17:08:02Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。