Fugu-MT 論文翻訳(概要): Does GenAI Make Usability Testing Obsolete?

論文の概要: Does GenAI Make Usability Testing Obsolete?

arxiv url: http://arxiv.org/abs/2411.00634v2
Date: Wed, 26 Mar 2025 08:56:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 14:57:00.864381
Title: Does GenAI Make Usability Testing Obsolete?
Title（参考訳）: GenAIはユーザビリティテストを不要にするか?
Authors: Ali Ebrahimi Pourasad, Walid Maalej,
Abstract要約: 本稿では,iOSアプリのユーザビリティ問題を予測するLarge Vision-Language Modelを利用した新しいツールUX-LLMを提案する。 UX-LLMの性能を評価するため,中程度の複雑さを持つ2つのオープンソースアプリケーションのユーザビリティ問題を予測し,ユーザビリティの専門家2人に予測の評価を依頼した。
参考スコア（独自算出の注目度）: 7.863638253070439
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Ensuring usability is crucial for the success of mobile apps. Usability issues can compromise user experience and negatively impact the perceived app quality. This paper presents UX-LLM, a novel tool powered by a Large Vision-Language Model that predicts usability issues in iOS apps. To evaluate the performance of UX-LLM, we predicted usability issues in two open-source apps of a medium complexity and asked two usability experts to assess the predictions. We also performed traditional usability testing and expert review for both apps and compared the results to those of UX-LLM. UX-LLM demonstrated precision ranging from 0.61 and 0.66 and recall between 0.35 and 0.38, indicating its ability to identify valid usability issues, yet failing to capture the majority of issues. Finally, we conducted a focus group with an app development team of a capstone project developing a transit app for visually impaired persons. The focus group expressed positive perceptions of UX-LLM as it identified unknown usability issues in their app. However, they also raised concerns about its integration into the development workflow, suggesting potential improvements. Our results show that UX-LLM cannot fully replace traditional usability evaluation methods but serves as a valuable supplement particularly for small teams with limited resources, to identify issues in less common user paths, due to its ability to inspect the source code.
Abstract（参考訳）: モバイルアプリの成功にはユーザビリティの確保が不可欠だ。ユーザビリティの問題がユーザエクスペリエンスを損なう可能性があり、アプリの品質に悪影響を及ぼす。本稿では,iOSアプリのユーザビリティ問題を予測するLarge Vision-Language Modelを利用した新しいツールUX-LLMを提案する。 UX-LLMの性能を評価するため,中程度の複雑さを持つ2つのオープンソースアプリケーションのユーザビリティ問題を予測し,ユーザビリティの専門家2人に予測の評価を依頼した。また,従来のユーザビリティテストと専門家による両アプリのレビューを実施し,その結果をUX-LLMと比較した。 UX-LLMは0.61から0.66までの精度を示し、0.35から0.38のリコールを行った。最後に、視覚障害者のためのトランジットアプリを開発するキャップストーンプロジェクトのアプリ開発チームとともにフォーカスグループを実施。フォーカスグループはUX-LLMに対する肯定的な認識を示し、アプリの未知のユーザビリティの問題を特定した。しかし、開発ワークフローへの統合に関する懸念も持ち上がり、潜在的な改善が示唆された。この結果から,UX-LLMは従来のユーザビリティ評価手法を完全に置き換えることはできないが,特に限られたリソースを持つ小規模チームにとって,ソースコードを検査する能力から,ユーザパスの少ない問題を特定する上で,重要なサプリメントとして機能することが示唆された。

関連論文リスト

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
A Dataset of Low-Rated Applications from the Amazon Appstore for User Feedback Analysis [5.949233960332969]
本研究では、Amazon Software Appstore(ASA)からソースされた64の低ランクアプリケーションからキュレートされた新しいデータセットを紹介する。このデータセットは、ソフトウェアの品質向上に不可欠である、ユーザによって特定される最も頻繁な問題をキャプチャするために設計されている。
論文参考訳（メタデータ） (2026-01-06T13:32:49Z)
Catching UX Flaws in Code: Leveraging LLMs to Identify Usability Flaws at the Development Stage [0.0]
本稿では,大規模言語モデル (LLM) が開発段階において信頼性と一貫した評価を提供できるかどうかを検討する。 OpenAIのGPT-4oのパイプラインを用いて,サイトごとの3つの独立した評価で850以上の評価を作成した。問題検出では、平均的なコーエンのカッパは0.50で、正確な一致は84%であった。
論文参考訳（メタデータ） (2025-12-03T21:02:54Z)
How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文参考訳（メタデータ） (2025-10-10T19:04:28Z)
AutoQual: An LLM Agent for Automated Discovery of Interpretable Features for Review Quality Assessment [9.378765665099573]
AutoQualは、データに埋め込まれた暗黙の知識を明示的で計算可能な機能に変換するためのフレームワークである。我々は,10億のユーザベースを持つ大規模オンラインプラットフォームにメソッドをデプロイする。
論文参考訳（メタデータ） (2025-10-09T11:11:02Z)
What Users Value and Critique: Large-Scale Analysis of User Feedback on AI-Powered Mobile Apps [2.352412885878654]
本稿では,AIを活用したモバイルアプリにおけるユーザフィードバックに関する総合的かつ大規模な研究について紹介する。私たちは、14カテゴリにわたる292のAI駆動アプリのキュレートされたデータセットを活用し、Google Playから894KのAI固有のレビューを取得しています。私たちのパイプラインは、ひとつの機能による満足度と、同じレビュー内で別の機能に対するフラストレーションの両方を表面化しています。
論文参考訳（メタデータ） (2025-06-12T14:56:52Z)
Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
OSS-UAgent: An Agent-based Usability Evaluation Framework for Open Source Software [47.02288620982592]
我々のフレームワークは,大規模言語モデル(LLM)を利用したインテリジェントエージェントを用いて,プログラミングタスクを実行する開発者をシミュレートする。 OSS-UAgentは正確でコンテキスト対応のコード生成を保証する。本稿では,OSS-UAgentがグラフ解析プラットフォーム評価に活用している実例を紹介する。
論文参考訳（メタデータ） (2025-05-29T08:40:10Z)
Continuous Observability Assurance in Cloud-Native Applications [0.0]
我々は,従来の研究に基づいて,観測可能性試験ツールOXNを連続観測可能性保証のための新しい手法に統合した。我々はその使い方を実演し、今後の方向性について議論する。
論文参考訳（メタデータ） (2025-03-11T15:43:26Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Skill-Adpative Imitation Learning for UI Test Reuse [13.538724823517292]
UIテストマイグレーションの有効性を高めるために,スキル適応型模倣学習フレームワークを提案する。その結果、SAILはUIテストマイグレーションの有効性を大幅に改善し、149%の成功率が最先端のアプローチよりも高いことがわかった。
論文参考訳（メタデータ） (2024-09-20T08:13:04Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
Fairness Concerns in App Reviews: A Study on AI-based Mobile Apps [9.948068408730654]
本研究は,モバイルアプリレビューにおける公平性の懸念を調査することを目的としている。我々の研究は、AIベースのモバイルアプリレビューに焦点を当てており、AIベースのアプリの不公平な振る舞いや結果が非AIベースのアプリよりも高い可能性がある。
論文参考訳（メタデータ） (2024-01-16T03:43:33Z)
LLbezpeky: Leveraging Large Language Models for Vulnerability Detection [10.330063887545398]
大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
論文参考訳（メタデータ） (2024-01-02T16:14:30Z)
Towards Automated Accessibility Report Generation for Mobile Apps [14.908672785900832]
アプリケーションアクセシビリティーレポート全体を生成するシステムを提案する。様々なデータ収集方法(アプリクローリング、手動記録など)と既存のアクセシビリティスキャナを組み合わせる。
論文参考訳（メタデータ） (2023-09-29T19:05:11Z)
Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。 Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文参考訳（メタデータ） (2022-07-15T11:39:37Z)
Towards a Fair Comparison and Realistic Design and Evaluation Framework of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文参考訳（メタデータ） (2022-05-25T08:28:08Z)
DAPPER: Label-Free Performance Estimation after Personalization for Heterogeneous Mobile Sensing [95.18236298557721]
DAPPER(Domain AdaPtation Performance EstimatoR)を提案する。実世界の6つのベースラインと比較した4つのセンシングデータセットによる評価の結果,DAPPERの精度は39.8%向上した。
論文参考訳（メタデータ） (2021-11-22T08:49:33Z)
On Efficient Uncertainty Estimation for Resource-Constrained Mobile Applications [0.0]
予測の不確実性は、モデル予測を補完し、下流タスクの機能を改善します。 Axolotlフレームワークを用いてモンテカルロ・ドロップアウト(MCDO)モデルを構築することでこの問題に対処する。我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。
論文参考訳（メタデータ） (2021-11-11T22:24:15Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
Emerging App Issue Identification via Online Joint Sentiment-Topic Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。 AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。 Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文参考訳（メタデータ） (2020-08-23T06:34:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。