論文の概要: Synthetic Heuristic Evaluation: A Comparison between AI- and Human-Powered Usability Evaluation
- arxiv url: http://arxiv.org/abs/2507.02306v1
- Date: Thu, 03 Jul 2025 04:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.589397
- Title: Synthetic Heuristic Evaluation: A Comparison between AI- and Human-Powered Usability Evaluation
- Title(参考訳): 総合的ヒューリスティック評価:AIと人力ユーザビリティ評価の比較
- Authors: Ruican Zhong, David W. McDonald, Gary Hsieh,
- Abstract要約: 画像解析と設計フィードバックを提供するマルチモーダルLLMを用いた合成評価手法を開発した。
人的評価器と比較して、合成評価の性能はタスク間で一貫した性能を維持した。
- 参考スコア(独自算出の注目度): 6.765001016474203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Usability evaluation is crucial in human-centered design but can be costly, requiring expert time and user compensation. In this work, we developed a method for synthetic heuristic evaluation using multimodal LLMs' ability to analyze images and provide design feedback. Comparing our synthetic evaluations to those by experienced UX practitioners across two apps, we found our evaluation identified 73% and 77% of usability issues, which exceeded the performance of 5 experienced human evaluators (57% and 63%). Compared to human evaluators, the synthetic evaluation's performance maintained consistent performance across tasks and excelled in detecting layout issues, highlighting potential attentional and perceptual strengths of synthetic evaluation. However, synthetic evaluation struggled with recognizing some UI components and design conventions, as well as identifying across screen violations. Additionally, testing synthetic evaluations over time and accounts revealed stable performance. Overall, our work highlights the performance differences between human and LLM-driven evaluations, informing the design of synthetic heuristic evaluations.
- Abstract(参考訳): ユーザビリティ評価は、人間中心の設計において重要であるが、専門家の時間とユーザの報酬を必要とするため、コストがかかる可能性がある。
本研究では,マルチモーダルLLMを用いた画像解析と設計フィードバックを用いた総合的ヒューリスティック評価手法を開発した。
2つのアプリで経験豊富なUX実践者による総合的な評価と比較すると、ユーザビリティの問題の73%と77%は、経験豊富な5人の評価者(57%と63%)を上回るものだった。
ヒトの評価器と比較して、合成評価の性能はタスク間で一貫した性能を維持し、レイアウト問題の検出に優れ、合成評価の潜在的注意力と知覚的強さを強調した。
しかし、合成評価は、いくつかのUIコンポーネントやデザイン規約を認識し、画面違反を識別するのに苦労した。
さらに, 経時的および経時的に合成評価試験を行い, 安定した性能を示した。
本研究は, 人工ヒューリスティック評価の設計において, 人体とLLMによる評価との性能差を強調した。
関連論文リスト
- Accelerating Unbiased LLM Evaluation via Synthetic Feedback [17.597195550638343]
本稿では,人間のアノテーションへの依存を減らすために,人間と合成フィードバックを統合した統計的に原則化されたフレームワークを提案する。
実験では、市販の合成評価器で最大12.2%、微調整で最大24.8%のアノテーションを減らした。
論文 参考訳(メタデータ) (2025-02-14T21:27:09Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。