論文の概要: Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage
- arxiv url: http://arxiv.org/abs/2512.04262v1
- Date: Wed, 03 Dec 2025 21:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.879539
- Title: Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage
- Title(参考訳): コードでUXの欠陥をキャッチする - LLMを活用して開発段階におけるユーザビリティの欠陥を識別する
- Authors: Nolan Platt, Ethan Luchs, Sehrish Nizamani,
- Abstract要約: 本稿では,大規模言語モデル (LLM) が開発段階において信頼性と一貫した評価を提供できるかどうかを検討する。
OpenAIのGPT-4oのパイプラインを用いて,サイトごとの3つの独立した評価で850以上の評価を作成した。
問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Usability evaluations are essential for ensuring that modern interfaces meet user needs, yet traditional heuristic evaluations by human experts can be time-consuming and subjective, especially early in development. This paper investigates whether large language models (LLMs) can provide reliable and consistent heuristic assessments at the development stage. By applying Jakob Nielsen's ten usability heuristics to thirty open-source websites, we generated over 850 heuristic evaluations in three independent evaluations per site using a pipeline of OpenAI's GPT-4o. For issue detection, the model demonstrated moderate consistency, with an average pairwise Cohen's Kappa of 0.50 and an exact agreement of 84%. Severity judgments showed more variability: weighted Cohen's Kappa averaged 0.63, but exact agreement was just 56%, and Krippendorff's Alpha was near zero. These results suggest that while GPT-4o can produce internally consistent evaluations, especially for identifying the presence of usability issues, its ability to judge severity varies and requires human oversight in practice. Our findings highlight the feasibility and limitations of using LLMs for early-stage, automated usability testing, and offer a foundation for improving consistency in automated User Experience (UX) evaluation. To the best of our knowledge, our work provides one of the first quantitative inter-rater reliability analyses of automated heuristic evaluation and highlights methods for improving model consistency.
- Abstract(参考訳): ユーザビリティ評価は、現代的なインターフェースがユーザニーズを満たすことを保証するために不可欠であるが、人間の専門家による従来のヒューリスティック評価は、特に開発の初期段階において、時間と主観的である可能性がある。
本稿では,大規模言語モデル (LLM) が開発段階における信頼性と一貫したヒューリスティック評価を実現することができるかどうかを検討する。
Jakob Nielsen氏の10のユーザビリティヒューリスティックを30のオープンソースWebサイトに適用することにより、OpenAIのGPT-4oのパイプラインを使用して、サイト毎に3つの独立した評価で850以上のヒューリスティック評価を生成しました。
問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
重み付けされたコーエンのカッパの平均は0.63であったが、正確な合意はわずか56%であり、クリッペンドルフのアルファは0に近かった。
これらの結果から, GPT-4oは内部的に一貫した評価, 特にユーザビリティ問題の存在を識別するためには, 重症度を判断する能力が異なり, 実際に人間の監視を必要とすることが示唆された。
この結果から,早期のユーザビリティテストや自動化ユーザビリティテストにLLMを使用することの可能性と限界を強調し,自動ユーザエクスペリエンス(UX)評価の整合性向上のための基盤を提供する。
我々の知識を最大限に活用するために、我々の研究は、自動ヒューリスティック評価におけるレータ間信頼性の最初の定量的分析の1つを提供し、モデルの整合性を改善する方法を強調している。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework [0.23872611575805827]
モデル信頼度とモデル間コンセンサス(外部エントロピー)を組み合わせた二重信号品質評価フレームワークを開発する。
法的な理由づけ、政治的分析、医学的分類書にまたがって評価する。
このフレームワークは、広範に二重符号化することなく定性的なコーディングをスケールする、原則化された、ドメインに依存しない品質保証メカニズムを提供する。
論文 参考訳(メタデータ) (2025-08-28T06:25:07Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - The Confidence Paradox: Can LLM Know When It's Wrong [5.445980143646736]
Document Visual Question Answering (DocVQA)モデルは、しばしば過信または倫理的に不一致な応答を生成する。
重み付き損失とコントラスト学習を用いてモデルの信頼度と正しさを一致させるモデルに依存しない自己教師型フレームワークであるHonestVQAを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:06:54Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。