論文の概要: Does GenAI Make Usability Testing Obsolete?
- arxiv url: http://arxiv.org/abs/2411.00634v1
- Date: Fri, 01 Nov 2024 14:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:30.131833
- Title: Does GenAI Make Usability Testing Obsolete?
- Title(参考訳): GenAIはユーザビリティテストを不要にするか?
- Authors: Ali Ebrahimi Pourasad, Walid Maalej,
- Abstract要約: 本稿では,iOSアプリのユーザビリティ問題を予測するLarge Vision-Language Modelを利用した新しいツールUX-LLMを提案する。
UX-LLMの性能を評価するために,中程度の複雑さを持つ2つのオープンソースアプリケーションのユーザビリティ問題を予測し,ユーザビリティの専門家に予測の評価を依頼した。
- 参考スコア(独自算出の注目度): 7.863638253070439
- License:
- Abstract: Ensuring usability is crucial for the success of mobile apps. Usability issues can compromise user experience and negatively impact the perceived app quality. This paper presents UX-LLM, a novel tool powered by a Large Vision-Language Model that predicts usability issues in iOS apps. To evaluate the performance of UX-LLM we predicted usability issues in two open-source apps of a medium complexity and asked usability experts to assess the predictions. We also performed traditional usability testing and expert review for both apps and compared the results to those of UX-LLM. UX-LLM demonstrated precision ranging from 0.61 and 0.66 and recall between 0.35 and 0.38, indicating its ability to identify valid usability issues, yet failing to capture the majority of issues. Finally, we conducted a focus group with an app development team of a capstone project developing a transit app for visually impaired persons. The focus group expressed positive perceptions of UX-LLM as it identified unknown usability issues in their app. However, they also raised concerns about its integration into the development workflow, suggesting potential improvements. Our results show that UX-LLM cannot fully replace traditional usability evaluation methods but serves as a valuable supplement particularly for small teams with limited resources, to identify issues in less common user paths, due to its ability to inspect the source code.
- Abstract(参考訳): モバイルアプリの成功にはユーザビリティの確保が不可欠だ。
ユーザビリティの問題がユーザエクスペリエンスを損なう可能性があり、アプリの品質に悪影響を及ぼす。
本稿では,iOSアプリのユーザビリティ問題を予測するLarge Vision-Language Modelを利用した新しいツールUX-LLMを提案する。
UX-LLMの性能を評価するために,中程度の複雑さを持つ2つのオープンソースアプリケーションのユーザビリティ問題を予測し,ユーザビリティの専門家に予測の評価を依頼した。
また,従来のユーザビリティテストと専門家による両アプリのレビューを実施し,その結果をUX-LLMと比較した。
UX-LLMは0.61から0.66までの精度を示し、0.35から0.38のリコールを行った。
最後に、視覚障害者のためのトランジットアプリを開発するキャップストーンプロジェクトのアプリ開発チームとともにフォーカスグループを実施。
フォーカスグループはUX-LLMに対する肯定的な認識を示し、アプリの未知のユーザビリティの問題を特定した。
しかし、開発ワークフローへの統合に関する懸念も持ち上がり、潜在的な改善が示唆された。
この結果から,UX-LLMは従来のユーザビリティ評価手法を完全に置き換えることはできないが,特に限られたリソースを持つ小規模チームにとって,ソースコードを検査する能力から,ユーザパスの少ない問題を特定する上で,重要なサプリメントとして機能することが示唆された。
関連論文リスト
- Skill-Adpative Imitation Learning for UI Test Reuse [13.538724823517292]
UIテストマイグレーションの有効性を高めるために,スキル適応型模倣学習フレームワークを提案する。
その結果、SAILはUIテストマイグレーションの有効性を大幅に改善し、149%の成功率が最先端のアプローチよりも高いことがわかった。
論文 参考訳(メタデータ) (2024-09-20T08:13:04Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Fairness Concerns in App Reviews: A Study on AI-based Mobile Apps [9.948068408730654]
本研究は,モバイルアプリレビューにおける公平性の懸念を調査することを目的としている。
我々の研究は、AIベースのモバイルアプリレビューに焦点を当てており、AIベースのアプリの不公平な振る舞いや結果が非AIベースのアプリよりも高い可能性がある。
論文 参考訳(メタデータ) (2024-01-16T03:43:33Z) - LLbezpeky: Leveraging Large Language Models for Vulnerability Detection [10.330063887545398]
大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
論文 参考訳(メタデータ) (2024-01-02T16:14:30Z) - Towards Automated Accessibility Report Generation for Mobile Apps [14.908672785900832]
アプリケーションアクセシビリティーレポート全体を生成するシステムを提案する。
様々なデータ収集方法(アプリクローリング、手動記録など)と既存のアクセシビリティスキャナを組み合わせる。
論文 参考訳(メタデータ) (2023-09-29T19:05:11Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - DAPPER: Label-Free Performance Estimation after Personalization for
Heterogeneous Mobile Sensing [95.18236298557721]
DAPPER(Domain AdaPtation Performance EstimatoR)を提案する。
実世界の6つのベースラインと比較した4つのセンシングデータセットによる評価の結果,DAPPERの精度は39.8%向上した。
論文 参考訳(メタデータ) (2021-11-22T08:49:33Z) - On Efficient Uncertainty Estimation for Resource-Constrained Mobile
Applications [0.0]
予測の不確実性は、モデル予測を補完し、下流タスクの機能を改善します。
Axolotlフレームワークを用いてモンテカルロ・ドロップアウト(MCDO)モデルを構築することでこの問題に対処する。
我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-11-11T22:24:15Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Emerging App Issue Identification via Online Joint Sentiment-Topic
Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。
AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。
Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文 参考訳(メタデータ) (2020-08-23T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。