論文の概要: UI-Bench: A Benchmark for Evaluating Design Capabilities of AI Text-to-App Tools
- arxiv url: http://arxiv.org/abs/2508.20410v3
- Date: Wed, 03 Sep 2025 23:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 11:58:39.441993
- Title: UI-Bench: A Benchmark for Evaluating Design Capabilities of AI Text-to-App Tools
- Title(参考訳): UI-Bench: AIテキスト・アプリ・ツールの設計能力を評価するベンチマーク
- Authors: Sam Jung, Agustin Garcinuno, Spencer Mateega,
- Abstract要約: UI-Benchは、競合するAIテキスト・アプリツール間の視覚的卓越性を評価する最初の大規模ベンチマークである。
システムはTrueSkill由来のモデルでランク付けされ、キャリブレーションされた信頼区間を生成する。
i)完全なプロンプトセット、(ii)オープンソースの評価フレームワーク、(iii)公開のリーダーボードをリリースします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI text-to-app tools promise high quality applications and websites in minutes, yet no public benchmark rigorously verifies those claims. We introduce UI-Bench, the first large-scale benchmark that evaluates visual excellence across competing AI text-to-app tools through expert pairwise comparison. Spanning 10 tools, 30 prompts, 300 generated sites, and 4,000+ expert judgments, UI-Bench ranks systems with a TrueSkill-derived model that yields calibrated confidence intervals. UI-Bench establishes a reproducible standard for advancing AI-driven web design. We release (i) the complete prompt set, (ii) an open-source evaluation framework, and (iii) a public leaderboard. The generated sites rated by participants will be released soon. View the UI-Bench leaderboard at https://uibench.ai/leaderboard.
- Abstract(参考訳): AIのテキスト・ツー・アプリツールは高品質なアプリケーションやウェブサイトを数分で保証するが、これらの主張を厳格に検証する公開ベンチマークは存在しない。
UI-Benchは、専門家のペアワイズ比較を通じて、競合するAIテキスト・アプリツール間の視覚的卓越性を評価する最初の大規模ベンチマークである。
10のツール、10のプロンプト、30のプロンプト、300のサイト、4000以上の専門家による判断を、UI-BenchはTrueSkill由来のシステムでランク付けする。
UI-Benchは、AI駆動のWeb設計を進めるための再現可能な標準を確立する。
リリース
(i)完全プロンプトセット
(ii)オープンソースの評価フレームワーク、及び
(三)大衆のリーダー。
参加者によって評価された生成されたサイトは、まもなくリリースされる。
UI-Benchのリーダーボードはhttps://uibench.ai/ Leaderboardを参照してください。
関連論文リスト
- GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git [0.8397730500554048]
GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。
私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。
我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
論文 参考訳(メタデータ) (2025-05-28T16:56:11Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - A Comprehensive Study of Structural Pruning for Vision Models [45.22420933965849]
PruningBenchと呼ばれる、構造的プルーニングのための最初の総合的なベンチマークを提示する。
PruningBenchは、多様な構造的プルーニング技術の有効性を評価するために、統一的で一貫したフレームワークを使用している。
本論文では、オンラインプルーニングプラットフォームを用いて、プルーニングタスクをカスタマイズし、すべての結果を再現する。
論文 参考訳(メタデータ) (2024-06-18T06:37:26Z) - From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline [47.19203597218352]
BenchBuilderは、大規模なクラウドソースデータセットから高品質でオープンなプロンプトをキュレートする自動パイプラインである。
BenchBuilderがキュレートした500の挑戦的なプロンプトからなるベンチマークであるArena-Hard-Autoをリリースしました。
我々の研究は、広範囲なデータから自動ベンチマークをスケーラブルにキュレーションするための新しいフレームワークを定めています。
論文 参考訳(メタデータ) (2024-06-17T17:26:10Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。