Fugu-MT 論文翻訳(概要): PerceptUI: LLM Agents as Human-Aligned Synthetic Users for UI/UX Evaluation

論文の概要: PerceptUI: LLM Agents as Human-Aligned Synthetic Users for UI/UX Evaluation

arxiv url: http://arxiv.org/abs/2606.05697v1
Date: Thu, 04 Jun 2026 04:35:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.557568
Title: PerceptUI: LLM Agents as Human-Aligned Synthetic Users for UI/UX Evaluation
Title（参考訳）: PerceptUI: UI/UX評価のためのヒューマンアラインな合成ユーザとしてのLLMエージェント
Authors: Nicolas Bougie, Xiaotong Ye, Gian Maria Marconi, Narimasa Watanabe,
Abstract要約: PerceptUIはペルソナ条件のUI/UX評価のためのフレームワークである。特定のユーザーがインターフェイス関連の質問にどのように答えるかを予測し、自然言語の合理性を生成する。
参考スコア（独自算出の注目度）: 0.7031557790463293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: User interface (UI) and user experience (UX) evaluation is central to product development, yet reliable feedback still relies on recruiting human participants or running online A/B tests, making early-stage iteration slow and costly. In light of this, recent work has explored Multimodal Large Language Models as proxy evaluators. However, existing approaches either produce surface-level critiques or a judgment that reflects the model's own biases rather than the genuine response of a particular user. We introduce PerceptUI, a framework for persona-conditioned UI/UX evaluation that predicts how a specific user would answer interface-related questions and produces natural-language rationales. PerceptUI is trained in two stages: (i) contrastive reflection fine-tuning distills teacher-generated rationales by extracting lessons from human decisions, and (ii) a reflective prompt-evolution step from the model's own failure traces. Across multiple domains and datasets, PerceptUI achieves human-level realism, generalizes to unseen questions and personas, and yields population-level response distributions.
Abstract（参考訳）: ユーザインターフェース(UI)とユーザエクスペリエンス(UX)の評価は製品開発の中心ですが、信頼性の高いフィードバックは、人間の採用やオンラインA/Bテストの実行に依存しています。これを踏まえて、最近の研究は、プロキシ評価器としてマルチモーダルな大規模言語モデルについて検討している。しかし、既存のアプローチは、特定のユーザの真の反応ではなく、モデル自身のバイアスを反映した表面レベルの批判や判断を生み出している。 PerceptUIはペルソナ条件のUI/UX評価のためのフレームワークで、特定のユーザがインターフェイス関連の質問にどのように答えるかを予測し、自然言語の合理性を生成する。 PerceptUIは2つの段階で訓練される。一人間の判断から教訓を抽出し、教師が生み出す合理性を比較検討し、 (ii)モデル自身の障害トレースから反射的な即時進化ステップ。複数のドメインとデータセットにわたって、PerceptUIは人間レベルのリアリズムを実現し、目に見えない質問やペルソナに一般化し、人口レベルの応答分布を生成する。

関連論文リスト

Preference-Aware Rubric Learning for Personalized Evaluation [59.539429430690156]
既存の評価手法では、長期的なインタラクション履歴に埋め込まれたユーザ固有の嗜好をキャプチャできない。静的判断よりも学習問題としてパーソナライズされた評価を定式化するパラダイムであるパーソナライズド・アズ・ラーニングを提案する。実験により、PARLはユーザ対応の応答を確実に識別し、ユーザ間で一般化する高忠実なルーブリックを一貫して誘導することが示された。
論文参考訳（メタデータ） (2026-05-29T17:00:55Z)
HumanLM: Simulating Users with State Alignment Beats Response Imitation [84.89761487596844]
本稿では,実際のユーザを正確に反映したユーザシミュレータを構築する新しいトレーニングフレームワークHumanLMを提案する。 HumanLMは、強化学習を通じて、地道的な応答に一致した自然言語の潜伏状態を生成する。本研究では,公開データに基づく実ユーザシミュレーションのための総合的なベンチマークであるHumanualを開発する。
論文参考訳（メタデータ） (2026-02-07T20:26:28Z)
MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces [97.62557395494962]
GPT-4o、Claude、Llamaを30のインターフェースでベンチマークするためにクラウドソーシングを使用します。以上の結果から,MLLMは特定の次元において人間の嗜好を近似するが,他の次元では異なってしまうことが示唆された。
論文参考訳（メタデータ） (2025-10-09T20:00:41Z)
The Era of Real-World Human Interaction: RL from User Conversations [45.2392745984914]
In-the-wild user conversation から直接学習するパラダイムである Reinforcement Learning from Human Interaction (RLHI) を紹介する。本研究では,(1)ユーザの自然言語フォローアップ応答に基づいて不満足なモデル出力を更新するユーザガイドリライトを用いたRLHI,(2)ユーザベースリワードを用いたRLHIの2つの補完手法を開発する。
論文参考訳（メタデータ） (2025-09-29T17:50:31Z)
User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal [59.120335322495436]
ユーザ-LLM会話ログのユーザフィードバックを分析し、そのようなフィードバックの発生時期と理由について考察する。第2に、このような暗黙のユーザフィードバックから学習信号を抽出することについて研究する。
論文参考訳（メタデータ） (2025-07-30T23:33:29Z)
Do MLLMs Capture How Interfaces Guide User Behavior? A Benchmark for Multimodal UI/UX Design Understanding [45.81445929920235]
WeserUI-Benchは、モデルによるUI/UX設計のマルチモーダル理解を評価するための新しいベンチマークである。現実世界のUIイメージペアは300種類あり、それぞれが実際の企業によって大規模にテストされた2つの設計版A/Bで構成されている。このベンチマークでは,(1)A/Bテストで検証された勝者を予測することで,より効果的なUI/UX設計を選択すること,(2)モデルの勝者が,専門家の推論に従って,その有効性を説明することができること,の2つのコアタスクをサポートする。
論文参考訳（メタデータ） (2025-05-08T08:00:32Z)
Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。 USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文参考訳（メタデータ） (2025-02-26T09:26:54Z)
User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文参考訳（メタデータ） (2023-06-05T02:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。