論文の概要: MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces
- arxiv url: http://arxiv.org/abs/2510.08783v1
- Date: Thu, 09 Oct 2025 20:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.696392
- Title: MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces
- Title(参考訳): UIジャッジとしてのMLLM:ユーザインタフェースの人間知覚予測のためのマルチモーダルLCMのベンチマーク
- Authors: Reuben A. Luera, Ryan Rossi, Franck Dernoncourt, Samyadeep Basu, Sungchul Kim, Subhojyoti Mukherjee, Puneet Mathur, Ruiyi Zhang, Jihyung Kil, Nedim Lipka, Seunghyun Yoon, Jiuxiang Gu, Zichao Wang, Cindy Xiong Bearfield, Branislav Kveton,
- Abstract要約: GPT-4o、Claude、Llamaを30のインターフェースでベンチマークするためにクラウドソーシングを使用します。
以上の結果から,MLLMは特定の次元において人間の嗜好を近似するが,他の次元では異なってしまうことが示唆された。
- 参考スコア(独自算出の注目度): 97.62557395494962
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In an ideal design pipeline, user interface (UI) design is intertwined with user research to validate decisions, yet studies are often resource-constrained during early exploration. Recent advances in multimodal large language models (MLLMs) offer a promising opportunity to act as early evaluators, helping designers narrow options before formal testing. Unlike prior work that emphasizes user behavior in narrow domains such as e-commerce with metrics like clicks or conversions, we focus on subjective user evaluations across varied interfaces. We investigate whether MLLMs can mimic human preferences when evaluating individual UIs and comparing them. Using data from a crowdsourcing platform, we benchmark GPT-4o, Claude, and Llama across 30 interfaces and examine alignment with human judgments on multiple UI factors. Our results show that MLLMs approximate human preferences on some dimensions but diverge on others, underscoring both their potential and limitations in supplementing early UX research.
- Abstract(参考訳): 理想的な設計パイプラインでは、ユーザインターフェース(UI)設計は意思決定を検証するためにユーザリサーチと連動する。
MLLM(Multimodal large language model)の最近の進歩は、設計者が形式的なテストの前に選択肢を狭めるのに役立つ、早期評価者として振る舞う有望な機会を提供する。
クリックやコンバージョンのようなメトリクスを備えた電子商取引のような狭い領域におけるユーザ行動を強調する以前の作業とは異なり、私たちはさまざまなインターフェースにわたる主観的なユーザ評価に重点を置いている。
MLLMは、個々のUIを評価して比較する際に、人間の好みを模倣できるかどうかを検討する。
クラウドソーシングプラットフォームからのデータを用いて、30のインターフェースにわたってGPT-4o、Claude、Llamaをベンチマークし、複数のUIファクタに関する人間の判断との整合性を調べる。
以上の結果から,MLLMはある程度の次元で人間の嗜好を近似するが,他の次元では異なっており,初期のUX研究を補完する可能性と限界の両方が強調されている。
関連論文リスト
- A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding [45.81445929920235]
WeserUI-Benchは、モデルによるUI/UX設計のマルチモーダル理解を評価するための新しいベンチマークである。
現実世界のUIイメージペアは300種類あり、それぞれが実際の企業によって大規模にテストされた2つの設計版A/Bで構成されている。
このベンチマークでは,(1)A/Bテストで検証された勝者を予測することで,より効果的なUI/UX設計を選択すること,(2)モデルの勝者が,専門家の推論に従って,その有効性を説明することができること,の2つのコアタスクをサポートする。
論文 参考訳(メタデータ) (2025-05-08T08:00:32Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Comparison-based Active Preference Learning for Multi-dimensional Personalization [7.349038301460469]
大きな言語モデル(LLM)は目覚ましい成功を収めていますが、それらを人間の好みに合わせることは、依然として重要な課題です。
近年,多次元のパーソナライゼーションが研究されている。これはモデルが明示的な嗜好に合った応答を生成できるようにすることを目的としている。
対話的に収集された比較フィードバックから暗黙的なユーザの嗜好を捉えるために,能動多次元選好学習(AMPLe)を提案する。
論文 参考訳(メタデータ) (2024-11-01T11:49:33Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。