Fugu-MT 論文翻訳(概要): Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage

論文の概要: Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage

arxiv url: http://arxiv.org/abs/2512.04262v1
Date: Wed, 03 Dec 2025 21:02:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-05 21:11:45.879539
Title: Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage
Title（参考訳）: コードでUXの欠陥をキャッチする - LLMを活用して開発段階におけるユーザビリティの欠陥を識別する
Authors: Nolan Platt, Ethan Luchs, Sehrish Nizamani,
Abstract要約: 本稿では,大規模言語モデル (LLM) が開発段階において信頼性と一貫した評価を提供できるかどうかを検討する。 OpenAIのGPT-4oのパイプラインを用いて,サイトごとの3つの独立した評価で850以上の評価を作成した。問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Usability evaluations are essential for ensuring that modern interfaces meet user needs, yet traditional heuristic evaluations by human experts can be time-consuming and subjective, especially early in development. This paper investigates whether large language models (LLMs) can provide reliable and consistent heuristic assessments at the development stage. By applying Jakob Nielsen's ten usability heuristics to thirty open-source websites, we generated over 850 heuristic evaluations in three independent evaluations per site using a pipeline of OpenAI's GPT-4o. For issue detection, the model demonstrated moderate consistency, with an average pairwise Cohen's Kappa of 0.50 and an exact agreement of 84%. Severity judgments showed more variability: weighted Cohen's Kappa averaged 0.63, but exact agreement was just 56%, and Krippendorff's Alpha was near zero. These results suggest that while GPT-4o can produce internally consistent evaluations, especially for identifying the presence of usability issues, its ability to judge severity varies and requires human oversight in practice. Our findings highlight the feasibility and limitations of using LLMs for early-stage, automated usability testing, and offer a foundation for improving consistency in automated User Experience (UX) evaluation. To the best of our knowledge, our work provides one of the first quantitative inter-rater reliability analyses of automated heuristic evaluation and highlights methods for improving model consistency.
Abstract（参考訳）: ユーザビリティ評価は、現代的なインターフェースがユーザニーズを満たすことを保証するために不可欠であるが、人間の専門家による従来のヒューリスティック評価は、特に開発の初期段階において、時間と主観的である可能性がある。本稿では,大規模言語モデル (LLM) が開発段階における信頼性と一貫したヒューリスティック評価を実現することができるかどうかを検討する。 Jakob Nielsen氏の10のユーザビリティヒューリスティックを30のオープンソースWebサイトに適用することにより、OpenAIのGPT-4oのパイプラインを使用して、サイト毎に3つの独立した評価で850以上のヒューリスティック評価を生成しました。問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。重み付けされたコーエンのカッパの平均は0.63であったが、正確な合意はわずか56%であり、クリッペンドルフのアルファは0に近かった。これらの結果から, GPT-4oは内部的に一貫した評価, 特にユーザビリティ問題の存在を識別するためには, 重症度を判断する能力が異なり, 実際に人間の監視を必要とすることが示唆された。この結果から,早期のユーザビリティテストや自動化ユーザビリティテストにLLMを使用することの可能性と限界を強調し,自動ユーザエクスペリエンス(UX)評価の整合性向上のための基盤を提供する。我々の知識を最大限に活用するために、我々の研究は、自動ヒューリスティック評価におけるレータ間信頼性の最初の定量的分析の1つを提供し、モデルの整合性を改善する方法を強調している。

関連論文リスト

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
Revisiting the Reliability of Language Models in Instruction-Following [15.281163913211818]
LLMはIFEvalなどのベンチマークでほぼシーリングの命令追従精度を達成した。モデルが類似のユーザ意図を伝達する従兄弟のプロンプトに対して、微妙なニュアンスで一貫した能力を示すかどうか、ニュアンス指向の信頼性について検討する。以上の結果から, ニュアンス指向の信頼性は, 信頼性が高く信頼性の高いLCM行動に向けた重要かつ過小評価された次のステップであることがわかった。
論文参考訳（メタデータ） (2025-12-15T02:57:55Z)
MicroProbe: Efficient Reliability Assessment for Foundation Models with Minimal Data [0.0]
マイクロプローブは、戦略的に選択された100個のプローブ例のみを用いて、総合的な信頼性評価を行う。マイクロプローブは, ランダムサンプリングベースラインに比べて23.5%高い信頼性を示す。マイクロプローブは、信頼性評価を99.9%の統計力で完了し、評価コストの90%を削減し、従来の方法カバレッジの95%を維持する。
論文参考訳（メタデータ） (2025-11-30T13:01:57Z)
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文参考訳（メタデータ） (2025-09-25T13:04:29Z)
Automated Quality Assessment for LLM-Based Complex Qualitative Coding: A Confidence-Diversity Framework [0.23872611575805827]
モデル信頼度とモデル間コンセンサス(外部エントロピー)を組み合わせた二重信号品質評価フレームワークを開発する。法的な理由づけ、政治的分析、医学的分類書にまたがって評価する。このフレームワークは、広範に二重符号化することなく定性的なコーディングをスケールする、原則化された、ドメインに依存しない品質保証メカニズムを提供する。
論文参考訳（メタデータ） (2025-08-28T06:25:07Z)
LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。 8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文参考訳（メタデータ） (2025-08-04T03:47:10Z)
The Confidence Paradox: Can LLM Know When It's Wrong [5.445980143646736]
Document Visual Question Answering (DocVQA)モデルは、しばしば過信または倫理的に不一致な応答を生成する。重み付き損失とコントラスト学習を用いてモデルの信頼度と正しさを一致させるモデルに依存しない自己教師型フレームワークであるHonestVQAを提案する。
論文参考訳（メタデータ） (2025-06-30T02:06:54Z)
VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。我々の結果は現在の状態を示している。
論文参考訳（メタデータ） (2025-05-26T01:20:44Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。 2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文参考訳（メタデータ） (2023-11-15T11:27:44Z)
Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文参考訳（メタデータ） (2023-08-03T12:47:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。