論文の概要: Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding
- arxiv url: http://arxiv.org/abs/2505.05026v3
- Date: Mon, 04 Aug 2025 13:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.71221
- Title: Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding
- Title(参考訳): MLLMはユーザ動作をどうガイドするか? マルチモーダルUI/UX設計理解のためのベンチマーク
- Authors: Jaehyun Jeon, Min Soo Kim, Jang Han Yoon, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu,
- Abstract要約: WeserUI-Benchは、モデルによるUI/UX設計のマルチモーダル理解を評価するための新しいベンチマークである。
現実世界のUIイメージペアは300種類あり、それぞれが実際の企業によって大規模にテストされた2つの設計版A/Bで構成されている。
このベンチマークでは,(1)A/Bテストで検証された勝者を予測することで,より効果的なUI/UX設計を選択すること,(2)モデルの勝者が,専門家の推論に従って,その有効性を説明することができること,の2つのコアタスクをサポートする。
- 参考スコア(独自算出の注目度): 45.81445929920235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User interface (UI) design goes beyond visuals, guiding user behavior and overall user experience (UX). Strategically crafted interfaces, for example, can boost sign-ups and drive business sales, underscoring the shift toward UI/UX as a unified design concept. While recent studies have explored UI quality evaluation using Multimodal Large Language Models (MLLMs), they largely focus on surface-level features, overlooking behavior-oriented aspects. To fill this gap, we introduce WiserUI-Bench, a novel benchmark for assessing models' multimodal understanding of UI/UX design. It includes 300 diverse real-world UI image pairs, each consisting of two design variants A/B-tested at scale by actual companies, where one was empirically validated to steer more user actions than the other. Each pair is accompanied one or more of 684 expert-curated rationales that capture key factors behind each winning design's effectiveness, spanning diverse cognitive dimensions of UX. Our benchmark supports two core tasks: (1) selecting the more effective UI/UX design by predicting the A/B test verified winner and (2) assessing how well a model, given the winner, can explain its effectiveness in alignment with expert reasoning. Experiments across several MLLMs show that current models exhibit limited nuanced reasoning about UI/UX design and its behavioral impact. We believe our work will foster research in UI/UX understanding and enable broader applications such as behavior-aware interface optimization.
- Abstract(参考訳): ユーザインターフェース(UI)設計は、ユーザ動作と全体的なユーザエクスペリエンス(UX)を導く、ビジュアルを越えています。
例えば、戦略的に構築されたインターフェースは、サインアップを強化し、ビジネスセールスを推進し、UI/UXへのシフトを統一デザインのコンセプトとして強調する。
MLLM(Multimodal Large Language Models)を用いたUI品質評価は近年研究されているが、それらは主に表面的な特徴に注目し、振る舞い指向の側面を見越す。
このギャップを埋めるために、モデルのUI/UX設計に対するマルチモーダル理解を評価するための新しいベンチマークであるWiserUI-Benchを紹介します。
これには300種類の現実世界のUIイメージペアが含まれており、それぞれが、実際の企業によって大規模にテストされた2つの設計版A/Bで構成されている。
それぞれのペアには、684人の専門家による合理化の1つ以上の理性が伴い、それぞれが勝利した設計の有効性の背後にある重要な要素を捉え、UXのさまざまな認知次元にまたがる。
このベンチマークでは,(1)A/Bテストで検証された勝者を予測することで,より効果的なUI/UX設計を選択すること,(2)モデルの勝者が,専門家の推論に従って,その有効性を説明することができること,の2つのコアタスクをサポートする。
いくつかのMLLMでの実験では、現在のモデルではUI/UX設計とその振る舞いへの影響について、限られたニュアンスな推論が示されている。
私たちは、UI/UX理解の研究を奨励し、ビヘイビア・アウェア・インターフェースの最適化のようなより広範なアプリケーションを可能にすると信じています。
関連論文リスト
- Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Leveraging Multimodal LLM for Inspirational User Interface Search [12.470067381902972]
既存のAIベースのUI検索メソッドは、ターゲットユーザやアプリのムードといった重要なセマンティクスを見逃すことが多い。
我々はマルチモーダルな大言語モデル(MLLM)を用いて,モバイルUI画像から意味を抽出し,解釈した。
われわれのアプローチは既存のUI検索方法よりも優れており、UIデザイナはよりリッチでコンテキストに関連のある検索体験を提供する。
論文 参考訳(メタデータ) (2025-01-29T17:38:39Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping [55.98643055756135]
初歩的なスケッチのWebページプロトタイプへの変換を自動化する上で,最先端のビジョン言語モデル(VLM)を評価するベンチマークであるSketch2Codeを紹介した。
我々は、既存のVLMではSketch2Codeが困難であることを示す10の商用およびオープンソースモデルを分析した。
UI/UXの専門家によるユーザ調査では、受動的フィードバックの受信よりも、積極的に質問を行うのがかなり好まれている。
論文 参考訳(メタデータ) (2024-10-21T17:39:49Z) - Identifying User Goals from UI Trajectories [19.492331502146886]
観測されたUI軌道からタスク目標を識別する手法を提案する。
また,2つの意図記述をパラフレーズとみなすことができるかどうかを評価するための新しい評価手法を提案する。
このタスクをベンチマークするために、人間と最先端モデル、特にGPT-4とGemini-1.5 Proのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-06-20T13:46:10Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - UIClip: A Data-driven Model for Assessing User Interface Design [20.66914084220734]
ユーザインタフェースの設計品質と視覚的関連性を評価するための機械学習モデルUIClipを開発した。
UIClipがUI設計品質の即時評価に依存するダウンストリームアプリケーションをどのように促進するかを示す。
論文 参考訳(メタデータ) (2024-04-18T20:43:08Z) - A Comparative Study on Reward Models for UI Adaptation with
Reinforcement Learning [0.6899744489931015]
強化学習は、使用状況ごとにインターフェイスをパーソナライズするために使用することができる。
それぞれのアダプティブの報酬を決定することは、UIアダプティブに対するRLの課題である。
最近の研究では、この課題に対処するための報酬モデルの使用について検討されているが、このタイプのモデルに関する実証的な証拠はない。
論文 参考訳(メタデータ) (2023-08-26T18:31:16Z) - Rules Of Engagement: Levelling Up To Combat Unethical CUI Design [23.01296770233131]
いわゆる暗黒パターンの先行研究から得られた5次元のインタフェースを簡易に評価する手法を提案する。
提案手法はユーザに対して,評価されたインタフェースの操作性を表す数値スコアを提供する。
論文 参考訳(メタデータ) (2022-07-19T14:02:24Z) - Learning Large-scale Universal User Representation with Sparse Mixture
of Experts [1.2722697496405464]
複数のタスクから高品質なユーザ表現を得るための汎用フレームワーク SUPERMOE を提案する。
具体的には、ユーザ動作シーケンスをMoE変換器で符号化することで、モデル容量を数十億のパラメータに増やすことができる。
複数のタスクにまたがる学習においてシーソー現象に対処するために,タスクインジケータを用いた新たな損失関数を設計する。
論文 参考訳(メタデータ) (2022-07-11T06:19:03Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z) - Exploiting Behavioral Consistence for Universal User Representation [11.290137806288191]
我々は普遍的ユーザ表現モデルの開発に注力する。
得られた普遍表現には豊富な情報が含まれることが予想される。
行動データを普遍表現にエンコードする自己監視型ユーザモデリングネットワーク(SUMN)を提案する。
論文 参考訳(メタデータ) (2020-12-11T06:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。