論文の概要: VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents
- arxiv url: http://arxiv.org/abs/2605.26144v1
- Date: Fri, 22 May 2026 20:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.195678
- Title: VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents
- Title(参考訳): VISTA: Visual Spec-to-Web-App コーディングエージェントのエンドツーエンドベンチマーク
- Authors: JunJia Guo, Yuhang Yao, Jiawei, Zhou, Jingdi Chen,
- Abstract要約: VISTAは、LLMベースのエージェントのエンドツーエンドのWebアプリケーション生成機能を評価するためのベンチマークである。
視覚的/構造的忠実度とスタック制約の2つの軸に沿って変化する5つのプロンプト情報条件を定義する。
ベンチマークの各ページは、インタラクティブなUIコンポーネントと約3つの視覚的アンカーポイントで手動で注釈付けされる。
- 参考スコア(独自算出の注目度): 25.141059096863255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VISTA (VIsual Spec-To-App Benchmark), a benchmark for evaluating the end-to-end web-app generation capabilities of LLM-based agents. Unlike prior code generation benchmarks that focus on algorithmic tasks, VISTA targets realistic UI-centric development, where agents must produce functional, visually coherent applications from underspecified inputs. We define five prompt-information conditions that vary along two axes, visual/structural fidelity and stack constraint: (1) text only with free stack choice, (2) text with reference screenshots under three specified stacks, (3) text with reference screenshots under free stack choice, (4) text with screenshots and pruned Figma structure under a single specified stack, and (5) text with screenshots and pruned Figma structure under free stack choice. To enable robust evaluation, each page in the benchmark is manually annotated with interactive UI components and around three visual anchor points, addressing the well-known limitations of script-based testing tools such as Playwright in open-ended code generation settings. Evaluation combines DOM-grounded reference matching, behavior-specific browser tests, and CLIP-based visual similarity, jointly measuring structural alignment, behavioral completeness, and overall visual fidelity. We use VISTA to assess four agent systems drawn from two model families and two harnesses, finding that visual fidelity and functional correctness are partially decoupled across both input conditions and agents, and that agent editing style varies sharply but is largely orthogonal to task quality. VISTA establishes a rigorous and reproducible foundation for advancing agent-based software engineering research.
- Abstract(参考訳): LLMエージェントのエンドツーエンドWebアプリケーション生成能力を評価するベンチマークであるVISTA(VIsual Spec-to-App Benchmark)を提案する。
アルゴリズム的なタスクにフォーカスする以前のコード生成ベンチマークとは異なり、VISTAは、エージェントが不特定入力から機能的で視覚的に一貫性のあるアプリケーションを生成しなければならない、現実的なUI中心の開発をターゲットにしている。
1)フリースタック選択によるテキスト,(2)フリースタック選択による参照スクリーンショット付きテキスト,(3)フリースタック選択による参照スクリーンショット付きテキスト,(4)単一スタックによるスクリーンショット付きテキストとプルーニングフィグマ構造,(5)フリースタック選択によるスクリーンショット付きテキストとプルーニングフィグマ構造。
堅牢な評価を可能にするため、ベンチマークの各ページはインタラクティブなUIコンポーネントと3つの視覚的アンカーポイントで手動で注釈付けされ、オープンなコード生成設定でPlaywrightのようなスクリプトベースのテストツールの既知の制限に対処する。
評価はDOMベースの参照マッチング、振る舞い固有のブラウザテスト、CLIPベースの視覚的類似性を組み合わせて、構造的アライメント、行動完全性、全体的な視覚的忠実度を共同で測定する。
VISTAを用いて、2つのモデルファミリーと2つのハーネスから引き出された4つのエージェントシステムを評価し、視覚的忠実度と機能的正当性は、入力条件とエージェントの両方で部分的に分離され、エージェント編集スタイルは急変するが、タスク品質にほぼ直交する。
VISTAはエージェントベースのソフトウェア工学研究を進めるための厳密で再現可能な基盤を確立する。
関連論文リスト
- Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation [19.889854990300595]
反復検索拡張生成(iRAG)は、複雑なマルチホップ問題に答える強力なパラダイムとして登場した。
Evidence (CoE) の textbfChain について述べる。
論文 参考訳(メタデータ) (2026-05-02T06:40:42Z) - GALA: Multimodal Graph Alignment for Bug Localization in Automated Program Repair [40.228155198574356]
本稿では,マルチモーダル自動プログラム修復(APR)を暗黙的な意味的推測から明示的な構造的推論に移行するフレームワークであるGALAを提案する。
GALAは、まずイメージUIグラフを構築して、視覚要素とその構造的関係をキャプチャし、続いて、このUIグラフをリポジトリレベルの構造と相互参照することで、ファイルレベルのアライメントを実行する。
モダリティ間のセマンティクスとリレーショナルの整合性を強制することにより、GALAは高度に正確なビジュアル・ツー・コードマッピングを確立する。
論文 参考訳(メタデータ) (2026-04-09T11:06:25Z) - Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (2026-03-13T14:42:21Z) - VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T17:48:55Z) - AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs [27.133240420463807]
AlignBenchは画像テキストアライメントの新しい指標を提供するベンチマークである。
多様な画像・テキスト・画像モデルとテキスト・ツー・イメージモデルによって生成された詳細な画像・キャプチャ・ペアを評価する。
各文は正当性のために注釈付けされ、VLMをアライメント評価器として直接評価することができる。
論文 参考訳(メタデータ) (2025-11-25T17:19:47Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。