論文の概要: Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development
- arxiv url: http://arxiv.org/abs/2603.04601v1
- Date: Wed, 04 Mar 2026 21:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.97867
- Title: Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development
- Title(参考訳): Vibe Code Bench: エンドツーエンドのWebアプリケーション開発におけるAIモデルの評価
- Authors: Hung Tran, Langston Nashold, Rayan Krishnan, Antoine Bigeard, Alex Gu,
- Abstract要約: 既存のベンチマークは、スクラッチから動くアプリケーションを構築するための完全な"ゼロ・ツー・ワン"プロセスではなく、独立したタスクを計測します。
Vibe Code Benchは、ブラウザベースのサブステップが964である100のWebアプリケーション仕様のベンチマークである。
提案するコントリビューションには,(1)エンドツーエンドWebアプリケーション開発のための新しいベンチマークデータセットとブラウザベースの評価パイプライン,(2)コスト,レイテンシ,エラー解析を備えた16のフロンティアモデルの包括的評価,(3)クロスモデルとヒューマンアノテーションの両方による評価器アライメントプロトコルなどが含まれている。
- 参考スコア(独自算出の注目度): 6.072381417546439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation has emerged as one of AI's highest-impact use cases, yet existing benchmarks measure isolated tasks rather than the complete "zero-to-one" process of building a working application from scratch. We introduce Vibe Code Bench, a benchmark of 100 web application specifications (50 public validation, 50 held-out test) with 964 browser-based workflows comprising 10,131 substeps, evaluated against deployed applications by an autonomous browser agent. Across 16 frontier models, the best achieves only 58.0% accuracy on the test split, revealing that reliable end-to-end application development remains a frontier challenge. We identify self-testing during generation as a strong performance predictor (Pearson r=0.72), and show through a completed human alignment study that evaluator selection materially affects outcomes (31.8-93.6% pairwise step-level agreement). Our contributions include (1) a novel benchmark dataset and browser-based evaluation pipeline for end-to-end web application development, (2) a comprehensive evaluation of 16 frontier models with cost, latency, and error analysis, and (3) an evaluator alignment protocol with both cross-model and human annotation results.
- Abstract(参考訳): コード生成はAIの最も影響の大きいユースケースの1つだが、既存のベンチマークでは、スクラッチから動くアプリケーションを構築するための完全な"ゼロ・ツー・ワン"プロセスではなく、独立したタスクを計測している。
10,131のサブステップからなる964のブラウザベースのワークフローを備えた、100のWebアプリケーション仕様(50のパブリックバリデーション、50のホールドアウトテスト)のベンチマークであるVibe Code Benchを紹介し、自律的なブラウザエージェントによってデプロイされたアプリケーションに対して評価する。
16のフロンティアモデル全体では、テストスプリットの精度は58.0%に過ぎず、信頼性の高いエンドツーエンドアプリケーション開発は依然としてフロンティアの課題である。
我々は、世代ごとの自己検査を強力なパフォーマンス予測器(Pearson r=0.72)と同定し、評価器の選択が結果に実質的に影響を及ぼすことを示す完全なヒトアライメント研究(31.8-93.6%対のステップレベル合意)を通して示す。
提案するコントリビューションには,(1)エンドツーエンドWebアプリケーション開発のための新しいベンチマークデータセットとブラウザベースの評価パイプライン,(2)コスト,レイテンシ,エラー解析を備えた16のフロンティアモデルの包括的評価,(3)クロスモデルとヒューマンアノテーションの両方による評価器アライメントプロトコルなどが含まれている。
関連論文リスト
- ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices [17.39388308538324]
本稿では,プロアクティブなモバイルエージェント開発のためのベンチマークであるProactiveMobileを紹介する。
プロアクティブタスクは、デバイス上のコンテキスト信号の4次元にわたる潜在ユーザ意図を推測するものとして形式化されている。
このベンチマークは成功率19.15%で、実験ではo1 (15.71%) と GPT-5 (7.39%) を上回っている。
論文 参考訳(メタデータ) (2026-02-25T12:32:37Z) - Multi-Agent LLM Committees for Autonomous Software Beta Testing [0.0]
このフレームワークは、モデルの多様性、ペルソナ駆動の振る舞いの変化、視覚的ユーザインターフェイスの理解を組み合わせたものだ。
視覚対応エージェントは、ナビゲーションとレポートによってユーザインターフェース要素を100%成功させることに成功した。
このフレームワークは、CI/CDパイプラインにおけるLLMベースのソフトウェアテストの再現可能な研究と実践的な展開を可能にする。
論文 参考訳(メタデータ) (2025-12-21T02:06:53Z) - Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage [0.0]
本稿では,大規模言語モデル (LLM) が開発段階において信頼性と一貫した評価を提供できるかどうかを検討する。
OpenAIのGPT-4oのパイプラインを用いて,サイトごとの3つの独立した評価で850以上の評価を作成した。
問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
論文 参考訳(メタデータ) (2025-12-03T21:02:54Z) - Testing the Testers: Human-Driven Quality Assessment of Voice AI Testing Platforms [0.0]
人中心ベンチマークによる音声AIテスト品質評価のための,最初の体系的フレームワークを提案する。
提案手法は,現実的なテスト会話(評価品質)を生成し,エージェント応答(シミュレーション品質)を正確に評価する。
論文 参考訳(メタデータ) (2025-11-06T07:22:58Z) - Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - LiveOIBench: Can Large Language Models Outperform Human Contestants in Informatics Olympiads? [5.835205320809048]
LiveOIBenchは403のOlympiadレベルの競合プログラミング問題と60のエキスパート設計テストケースを特徴とするベンチマークである。
この問題は2023年から2025年の間に行われた、72の公式のインフォマティクス・オリンピアード(英語版)から直接引き起こされている。
LiveOIBenchは,詳細なサブタスクと広範なプライベートテストケースを備えた,厳密にキュレートされた高品質なタスクという,4つの重要な機能を通じて,自分自身を区別する。
論文 参考訳(メタデータ) (2025-10-10T17:54:24Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。