論文の概要: Avenir-UX: Automated UX Evaluation via Simulated Human Web Interaction with GUI Grounding
- arxiv url: http://arxiv.org/abs/2604.09581v2
- Date: Tue, 14 Apr 2026 20:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.516365
- Title: Avenir-UX: Automated UX Evaluation via Simulated Human Web Interaction with GUI Grounding
- Title(参考訳): Avenir-UX:GUIグラウンディングを用いた擬似WebインタラクションによるUX自動評価
- Authors: Wee Joe Tan, Zi Rui Lucas Lim, Shashank Durgad, Karim Obegi, Aiden Yiliu Li,
- Abstract要約: 本稿では,Webサイト上でのユーザ動作をシミュレートするユーザエクスペリエンス評価エージェントであるAvenir-UXを提案する。
Avenir-UXはアクションと観察を基盤として、実際のWebページとエンドツーエンドで対話することを可能にする。
Avenir-Web上に構築されたシステムでは,この堅牢なインタラクションをシミュレーションされたユーザ行動プロファイルと構造化された評価プロトコルと組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating web usability typically requires time-consuming user studies and expert reviews, which often limits iteration speed during product development, especially for small teams and agile workflows. We present Avenir-UX, a user-experience evaluation agent that simulates user behavior on websites and produces standardized usability. Unlike traditional tools that rely on DOM parsing, Avenir-UX grounds actions and observations, enabling it to interact with real web pages end-to-end while maintaining a coherent trace of the user journey. Building on Avenir-Web, our system pairs this robust interaction with simulated user behavior profiles and a structured evaluation protocol that integrates the System Usability Scale (SUS), step-wise Single Ease Questions (SEQ), and concurrent Think Aloud. Subsequently, a comprehensive User Experience (UX) report will be generated. We discuss the architecture of Avenir-UX and illustrate how its multimodal grounding improves robustness for web-based interaction and UX evaluation scenarios, paving the way for a new era of continuous, scalable, and data-driven usability testing that empowers every developer to build web interfaces that are usable. Code is available at: https://github.com/Onflow-AI/Avenir-UX
- Abstract(参考訳): Webユーザビリティを評価するには、一般的に時間を要するユーザスタディと専門家のレビューが必要です。
本稿では,Webサイトのユーザ動作をシミュレートし,標準化されたユーザビリティを実現するユーザエクスペリエンス評価エージェントであるAvenir-UXを提案する。
DOM解析に依存する従来のツールとは異なり、Avenir-UXはアクションと観察を基盤として、ユーザジャーニーの一貫性のあるトレースを維持しながら、実際のWebページとエンドツーエンドで対話することができる。
Avenir-Web上に構築したシステムでは,この堅牢なインタラクションをシミュレーションされたユーザ行動プロファイルと,SUS(System Usability Scale),SEQ(Step-wise Single Ease Questions),コンカレントThink Aloudを統合した構造化評価プロトコルと組み合わせている。
その後、包括的なユーザエクスペリエンス(UX)レポートが生成される。
Avenir-UXのアーキテクチャについて議論し、そのマルチモーダルグラウンドがWebベースのインタラクションとUX評価シナリオの堅牢性をどのように改善するかを説明し、すべての開発者が使用可能なWebインターフェースを構築するための、継続的でスケーラブルでデータ駆動のユーザビリティテストの新たな時代への道を開く。
コードは、https://github.com/Onflow-AI/Avenir-UXで入手できる。
関連論文リスト
- WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing [57.7131457251794]
エンドツーエンドの自動Webテストを評価するベンチマークであるWebTestBenchを紹介します。
テストプロセスを2つのカスケードサブタスク、チェックリストの生成と欠陥検出に分解し、WebTesterを提案する。
以上の結果から,現在のコンピュータ利用エージェント能力と産業レベルの展開要求との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2026-03-26T09:27:29Z) - Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts [59.68272935616536]
Avenir-Webは、現実世界のデプロイにおいて、Online-Mind2Webベンチマークの新たなオープンソース状態を達成するWebエージェントである。
Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web task。
論文 参考訳(メタデータ) (2026-02-02T18:50:07Z) - FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback [92.67587639164908]
マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。
我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。
20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
論文 参考訳(メタデータ) (2025-12-05T23:28:09Z) - Generative Interfaces for Language Models [70.25765232527762]
ユーザインタフェース(UI)を積極的に生成することにより,大規模言語モデル(LLM)がユーザクエリに応答するパラダイムを提案する。
本フレームワークは,ユーザクエリをタスク固有のUIに変換するために,構造化インターフェース固有の表現と反復的洗練を活用している。
その結果、生成的インタフェースは人間の嗜好を最大72%改善し、会話的インタフェースよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-08-26T17:43:20Z) - Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - Generative User-Experience Research for Developing Domain-specific Natural Language Processing Applications [4.139846693958609]
本稿では、生成UX研究をドメインNLPアプリケーションに組み込むための新しい手法を提案する。
生成UX研究は、プロトタイプ開発の初期段階、すなわちアイデアと概念評価、およびシステムの有用性とユーザ有用性を評価するための最終段階において、ドメインユーザーを採用する。
論文 参考訳(メタデータ) (2023-06-28T12:17:45Z) - Versatile User Identification in Extended Reality using Pretrained Similarity-Learning [16.356961801884562]
類似性学習モデルを開発し、“Who Is Alyx?”データセットで事前学習する。
従来の分類学習ベースラインと比較して,本モデルは優れた性能を示す。
本手法は,実運用XRシステムにおける事前学習した動きに基づく識別モデルの容易な統合方法である。
論文 参考訳(メタデータ) (2023-02-15T08:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。