論文の概要: Will AI also replace inspectors? Investigating the potential of generative AIs in usability inspection
- arxiv url: http://arxiv.org/abs/2510.17056v1
- Date: Sun, 19 Oct 2025 23:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.268093
- Title: Will AI also replace inspectors? Investigating the potential of generative AIs in usability inspection
- Title(参考訳): AIはインスペクタを置き換えるか? ユーザビリティインスペクタにおける生成AIの可能性を探る
- Authors: Luis F. G. Campos, Leonardo C. Marques, Walter T. Nakamura,
- Abstract要約: 本研究では、ユーザビリティ問題を特定するための生成AIの性能を、経験豊富な人間の検査者と比較した。
検査官が最高レベルの精度と全体的なカバレッジを達成した一方で、AIは高い個別のパフォーマンスを示し、多くの新しい欠陥を発見したが、偽陽性と冗長な報告の頻度は高かった。
これらの結果は、現在の段階では、AIは人間のインスペクタを置き換えることはできないが、効率を改善し、欠陥カバレッジを拡大するための貴重な拡張ツールとして役立つことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Usability inspection is a well-established technique for identifying interaction issues in software interfaces, thereby contributing to improved product quality. However, it is a costly process that requires time and specialized knowledge from inspectors. With advances in Artificial Intelligence (AI), new opportunities have emerged to support this task, particularly through generative models capable of interpreting interfaces and performing inspections more efficiently. This study examines the performance of generative AIs in identifying usability problems, comparing them to those of experienced human inspectors. A software prototype was evaluated by four specialists and two AI models (GPT-4o and Gemini 2.5 Flash), using metrics such as precision, recall, and F1-score. While inspectors achieved the highest levels of precision and overall coverage, the AIs demonstrated high individual performance and discovered many novel defects, but with a higher rate of false positives and redundant reports. The combination of AIs and human inspectors produced the best results, revealing their complementarity. These findings suggest that AI, in its current stage, cannot replace human inspectors but can serve as a valuable augmentation tool to improve efficiency and expand defect coverage. The results provide evidence based on quantitative analysis to inform the discussion on the role of AI in usability inspections, pointing to viable paths for its complementary use in software quality assessment contexts.
- Abstract(参考訳): ユーザビリティ検査は、ソフトウェアインターフェースにおけるインタラクションの問題を特定するための確立された技術であり、それによって製品品質の改善に寄与する。
しかし、検査官からの時間と専門知識を必要とするコストのかかるプロセスである。
人工知能(AI)の進歩により、特にインタフェースを解釈し、検査をより効率的に行うことができる生成モデルを通じて、このタスクをサポートする新たな機会が出現した。
本研究では、ユーザビリティ問題を特定するための生成AIの性能を、経験豊富な人間の検査者と比較した。
ソフトウェアプロトタイプは4人の専門家と2つのAIモデル(GPT-4oとGemini 2.5 Flash)によって、精度、リコール、F1スコアなどのメトリクスを使用して評価された。
検査官が最高レベルの精度と全体的なカバレッジを達成した一方で、AIは高い個別のパフォーマンスを示し、多くの新しい欠陥を発見したが、偽陽性と冗長な報告の頻度は高かった。
AIと人間のインスペクタの組み合わせが最高の結果をもたらし、その相補性を明らかにした。
これらの結果は、現在の段階では、AIは人間のインスペクタを置き換えることはできないが、効率を改善し、欠陥カバレッジを拡大するための貴重な拡張ツールとして役立つことを示唆している。
その結果, ユーザビリティ検査におけるAIの役割に関する議論を定量的に分析し, ソフトウェア品質評価の文脈における補完的利用の有効な経路を示唆する証拠が得られた。
関連論文リスト
- How Students Use Generative AI for Software Testing: An Observational Study [3.2402950370430497]
本研究では、初心者ソフトウェア開発者がエンジニアリングユニットテストのために生成AIとどのように相互作用するかを検討する。
我々は,テストアイデアとテスト実装が生成AIに由来するか,参加者によって定義された4つのインタラクション戦略を特定した。
学生は、時間節約、認知負荷の低減、テスト思考のサポートなどの利点を報告したが、信頼の低下、テスト品質の懸念、所有権の欠如といった欠点も指摘した。
論文 参考訳(メタデータ) (2025-10-12T11:31:41Z) - Explainable AI for Collaborative Assessment of 2D/3D Registration Quality [50.65650507103078]
本稿では,2D/3D登録品質検証に特化して訓練された最初の人工知能フレームワークを提案する。
我々の説明可能なAI(XAI)アプローチは、人間のオペレーターに対する情報意思決定を強化することを目的としている。
論文 参考訳(メタデータ) (2025-07-23T15:28:57Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Human-AI Collaborative Game Testing with Vision Language Models [0.0]
本研究では,AI支援ワークフローの開発と実験により,AIがゲームテストを改善する方法について検討する。
我々は、AIサポートの有無、欠陥や設計資料の詳細な知識の有無の4つの条件下で、AIアシストの有効性を評価する。
その結果、特に詳細な知識と組み合わせた場合、AIアシストは欠陥識別性能を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-01-20T23:14:23Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - AI-powered software testing tools: A systematic review and empirical assessment of their features and limitations [1.0344642971058589]
AI駆動のテスト自動化ツールは、ソフトウェア品質を改善し、手動テストの労力を減らす強力な可能性を示している。
将来の研究は、ソフトウェアテストの適応性、信頼性、堅牢性を改善するために、AIモデルを進化させることに焦点を当てるべきである。
論文 参考訳(メタデータ) (2024-08-31T10:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。