論文の概要: User Reviews as a Source for Usability Requirements: A Precursor Study on Using Large Language Models
- arxiv url: http://arxiv.org/abs/2605.12657v1
- Date: Tue, 12 May 2026 19:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.631047
- Title: User Reviews as a Source for Usability Requirements: A Precursor Study on Using Large Language Models
- Title(参考訳): ユーザレビューによるユーザビリティ要件のソース:大規模言語モデルの利用に関する事前調査
- Authors: Cedric Wellhausen, Laura Reinhardt, Kurt Schneider,
- Abstract要約: 本稿では,3種類のアプリのユーザビリティ関連側面を含む300のユーザレビューのデータセットを提供する。
また、ユーザレビューの理解におけるLLMのパフォーマンスが、人間のレーダのパフォーマンスに匹敵するかどうかも分析する。
- 参考スコア(独自算出の注目度): 1.6498033620778052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is known that user-centered approaches to requirements engineering in general lead to a better suited product for the end-users. LLM4RE provides promising approaches to support the requirements elicitation process (e.g. classification of requirements). Previous approaches focus on Machine-Learning (ML) or Deep-Learning (DL) aspects, which require intensive training with a large amount of manually labeled data. LLMs, on the other hand, are pre-trained on large amounts of user-generated text data, enabling a user-centric workflow to analyze requirements. In this paper, we explore the possibility of exploiting the improved natural language understanding of LLMs, rather than strict ML classification, together with the mass extraction of user reviews to analyze if the performance of LLMs in understanding user reviews is comparable to the performance of human raters. This enables a quick and cheap workflow for development teams to gather and process their userś requirements. This paper provides three major contributions: (1) We provide a completely coded dataset of 300 user reviews containing usability-relevant aspects from three different types of apps, that were labeled by two human raters and by an LLM. (2) We build an initial prompt, based on two prompt engineering iterations and specifically developed coding guidelines derived from the 10 Nielsen Usability Heuristics, for LLMs to filter usability relevant user reviews. (3) We determine that LLMs are generally able to recognize usability as a non-functional requirement in user reviews, in terms of their F-score, but the performance and reliability is strongly dependent on the prompt.
- Abstract(参考訳): 要件エンジニアリングに対するユーザ中心のアプローチが、エンドユーザーにとってより適した製品に結びつくことが知られている。
LLM4REは要件適用プロセス(例えば要求の分類)をサポートするための有望なアプローチを提供する。
これまではML(Machine-Learning)やDL(Deep-Learning)に重点を置いていた。
一方、LLMは大量のユーザ生成テキストデータに基づいて事前トレーニングされており、ユーザ中心のワークフローで要求を分析することができる。
本稿では、厳密なML分類ではなく、LLMの自然言語理解の改善を活用できる可能性を検討するとともに、ユーザレビューの大量抽出を行い、ユーザレビューの理解におけるLLMのパフォーマンスが人間のレーダのパフォーマンスに匹敵するかどうかを分析する。
これにより、開発チームがユーザ要求を収集して処理するための、迅速で安価なワークフローが可能になる。
本論文は3つの主要なコントリビューションを提供する: 1) 3種類のアプリからユーザビリティ関連アスペクトを含む300のユーザレビューの完全なコード化されたデータセットを提供する。
2) 実用性に関するユーザレビューをフィルタリングするために,2つの迅速なエンジニアリングイテレーションに基づいて初期プロンプトを構築し,特に10個のNielsen Usability Heuristicsから派生したコーディングガイドラインを構築した。
(3) LLM はユーザレビューにおいてユーザビリティを非機能要件として認識できるが,性能と信頼性はプロンプトに強く依存している。
関連論文リスト
- A Human-Centered Workflow for Using Large Language Models in Content Analysis [0.0]
本稿では,大言語モデルをユニバーサルテキスト処理機械として概念化する。
3つの質的かつ定量的なコンテンツ分析タスクにLLMを使用するための包括的なワークフローを提供する。
論文 参考訳(メタデータ) (2026-02-27T14:32:29Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [53.059480071818136]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-26T14:34:00Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Using Large Language Models to Understand Telecom Standards [35.343893798039765]
大きな言語モデル(LLM)は、関連する情報へのより高速なアクセスを提供する。
質問応答(QA)アシスタントとして使用される最先端のLCMの性能を評価する。
その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用できることがわかった。
論文 参考訳(メタデータ) (2024-04-02T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。