論文の概要: Exploring Requirements Elicitation from App Store User Reviews Using Large Language Models
- arxiv url: http://arxiv.org/abs/2409.15473v1
- Date: Mon, 23 Sep 2024 18:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 12:57:29.213066
- Title: Exploring Requirements Elicitation from App Store User Reviews Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたApp Storeユーザレビューからの要求緩和の探索
- Authors: Tanmai Kumar Ghosh, Atharva Pargaonkar, Nasir U. Eisty,
- Abstract要約: 本研究は,大規模言語モデルのパワーを活用して,ユーザレビューの分析を行い,自動要求の導出を行うアプローチを提案する。
有用性を示すようにラベル付けされたアプリレビューのデータセット上に,確立された3つのLMM BERT, DistilBERT, GEMMAを微調整した。
評価の結果、BERTの精度は92.40%、F1スコアは92.39%であり、有用レビューを正確に分類する効果が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile applications have become indispensable companions in our daily lives. Spanning over the categories from communication and entertainment to healthcare and finance, these applications have been influential in every aspect. Despite their omnipresence, developing apps that meet user needs and expectations still remains a challenge. Traditional requirements elicitation methods like user interviews can be time-consuming and suffer from limited scope and subjectivity. This research introduces an approach leveraging the power of Large Language Models (LLMs) to analyze user reviews for automated requirements elicitation. We fine-tuned three well-established LLMs BERT, DistilBERT, and GEMMA, on a dataset of app reviews labeled for usefulness. Our evaluation revealed BERT's superior performance, achieving an accuracy of 92.40% and an F1-score of 92.39%, demonstrating its effectiveness in accurately classifying useful reviews. While GEMMA displayed a lower overall performance, it excelled in recall (93.39%), indicating its potential for capturing a comprehensive set of valuable user insights. These findings suggest that LLMs offer a promising avenue for streamlining requirements elicitation in mobile app development, leading to the creation of more user-centric and successful applications.
- Abstract(参考訳): モバイルアプリケーションは、日々の生活に欠かせない仲間になってきています。
コミュニケーションやエンターテイメント、医療、金融といった分野にまたがって、これらの応用はあらゆる面で影響を与えてきた。
しかし、ユーザーのニーズと期待を満たすアプリを開発することは依然として課題だ。
ユーザインタビューのような従来の要件適用方法は時間がかかり、スコープや主観性が制限される。
本研究では,Large Language Models (LLMs) のパワーを活用して,自動要求抽出のためのユーザレビューを解析する手法を提案する。
有用性を示すようにラベル付けされたアプリレビューのデータセット上に,確立された3つのLMM BERT, DistilBERT, GEMMAを微調整した。
評価の結果、BERTの精度は92.40%、F1スコアは92.39%であり、有用レビューを正確に分類する効果が示された。
GEMMAは全体的な性能が低かったが、リコール(93.39%)に優れており、その可能性を示唆している。
これらの結果は,LDMがモバイルアプリ開発における要件適用を合理化するための,有望な道のりであることを示唆している。
関連論文リスト
- Beyond Keywords: A Context-based Hybrid Approach to Mining Ethical Concern-related App Reviews [0.0]
倫理的懸念に関連するアプリケーションレビューは一般的にドメイン固有の言語を使用し、より多様な語彙を使って表現される。
本研究では、自然言語推論(NLI)とデコーダ限定(LLaMAライク)大規模言語モデル(LLM)を組み合わせて、倫理的関心事に関するアプリレビューを大規模に抽出する、新しい自然言語処理(NLI)アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-11T22:08:48Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LLM-Cure: LLM-based Competitor User Review Analysis for Feature Enhancement [0.7285835869818668]
本稿では,大規模言語モデル(LLM)に基づく機能拡張のための競合ユーザレビュー分析を提案する。
LLM-Cureは、LCMを適用して、レビュー内の特徴を特定し、分類する。
LLM-Cureは、ユーザーレビューに苦情を付けると、苦情に関連する競合アプリの高い評価(4と5の星)のレビューをキュレートする。
論文 参考訳(メタデータ) (2024-09-24T04:17:21Z) - Elicitron: An LLM Agent-Based Simulation Framework for Design Requirements Elicitation [38.98478510165569]
本稿では,Large Language Models (LLMs) を利用した新たなフレームワークを提案する。
LLMは多数のシミュレーションユーザ(LLMエージェント)を生成するために使用され、より広い範囲のユーザニーズの探索を可能にする。
論文 参考訳(メタデータ) (2024-04-04T17:36:29Z) - Fairness Concerns in App Reviews: A Study on AI-based Mobile Apps [9.948068408730654]
本研究は,モバイルアプリレビューにおける公平性の懸念を調査することを目的としている。
我々の研究は、AIベースのモバイルアプリレビューに焦点を当てており、AIベースのアプリの不公平な振る舞いや結果が非AIベースのアプリよりも高い可能性がある。
論文 参考訳(メタデータ) (2024-01-16T03:43:33Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Emerging App Issue Identification via Online Joint Sentiment-Topic
Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。
AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。
Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文 参考訳(メタデータ) (2020-08-23T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。