Fugu-MT 論文翻訳(概要): Exploring Requirements Elicitation from App Store User Reviews Using Large Language Models

論文の概要: Exploring Requirements Elicitation from App Store User Reviews Using Large Language Models

arxiv url: http://arxiv.org/abs/2409.15473v1
Date: Mon, 23 Sep 2024 18:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 12:57:29.213066
Title: Exploring Requirements Elicitation from App Store User Reviews Using Large Language Models
Title（参考訳）: 大規模言語モデルを用いたApp Storeユーザレビューからの要求緩和の探索
Authors: Tanmai Kumar Ghosh, Atharva Pargaonkar, Nasir U. Eisty,
Abstract要約: 本研究は,大規模言語モデルのパワーを活用して,ユーザレビューの分析を行い,自動要求の導出を行うアプローチを提案する。有用性を示すようにラベル付けされたアプリレビューのデータセット上に,確立された3つのLMM BERT, DistilBERT, GEMMAを微調整した。評価の結果、BERTの精度は92.40%、F1スコアは92.39%であり、有用レビューを正確に分類する効果が示された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mobile applications have become indispensable companions in our daily lives. Spanning over the categories from communication and entertainment to healthcare and finance, these applications have been influential in every aspect. Despite their omnipresence, developing apps that meet user needs and expectations still remains a challenge. Traditional requirements elicitation methods like user interviews can be time-consuming and suffer from limited scope and subjectivity. This research introduces an approach leveraging the power of Large Language Models (LLMs) to analyze user reviews for automated requirements elicitation. We fine-tuned three well-established LLMs BERT, DistilBERT, and GEMMA, on a dataset of app reviews labeled for usefulness. Our evaluation revealed BERT's superior performance, achieving an accuracy of 92.40% and an F1-score of 92.39%, demonstrating its effectiveness in accurately classifying useful reviews. While GEMMA displayed a lower overall performance, it excelled in recall (93.39%), indicating its potential for capturing a comprehensive set of valuable user insights. These findings suggest that LLMs offer a promising avenue for streamlining requirements elicitation in mobile app development, leading to the creation of more user-centric and successful applications.
Abstract（参考訳）: モバイルアプリケーションは、日々の生活に欠かせない仲間になってきています。コミュニケーションやエンターテイメント、医療、金融といった分野にまたがって、これらの応用はあらゆる面で影響を与えてきた。しかし、ユーザーのニーズと期待を満たすアプリを開発することは依然として課題だ。ユーザインタビューのような従来の要件適用方法は時間がかかり、スコープや主観性が制限される。本研究では,Large Language Models (LLMs) のパワーを活用して,自動要求抽出のためのユーザレビューを解析する手法を提案する。有用性を示すようにラベル付けされたアプリレビューのデータセット上に,確立された3つのLMM BERT, DistilBERT, GEMMAを微調整した。評価の結果、BERTの精度は92.40%、F1スコアは92.39%であり、有用レビューを正確に分類する効果が示された。 GEMMAは全体的な性能が低かったが、リコール(93.39%)に優れており、その可能性を示唆している。これらの結果は,LDMがモバイルアプリ開発における要件適用を合理化するための,有望な道のりであることを示唆している。

関連論文リスト

CMER: A Context-Aware Approach for Mining Ethical Concern-related App Reviews [0.0]
本研究は、倫理的関心事関連アプリレビューを大規模に抽出するCMER(UnderlineContext-Aware Approach for UnderlineEthical Concern-related App UnderlineReviews)を提案する。 CMERは自然言語推論(NLI)とデコーダ専用(LLaMAライク)大型言語モデル(LLM)を組み合わせるモバイル投資アプリのアプリレビュー382万件のデータセットから,プライバシとセキュリティ関連レビュー(PSR)をマイニングすることでCMERの有効性を評価した。
論文参考訳（メタデータ） (2025-07-11T21:46:04Z)
Leveraging Large Language Models for Classifying App Users' Feedback [0.7366405857677226]
我々は,GPT-3.5-Turbo,GPT-4,Flan-T5,Llama3-70bの4つの高度なLCMの能力を評価し,ユーザフィードバックの分類を強化した。提案手法は,ユーザからのフィードバックを粗いカテゴリに効果的に分類できることを示す。
論文参考訳（メタデータ） (2025-07-11T01:33:54Z)
Mobile Application Review Summarization using Chain of Density Prompting [1.90298817989995]
モバイルアプリレビューを要約するために,LLM(Large Language Models)を活用しています。我々は、OpenAI GPT-4を誘導するために、Chain of Density(CoD)プロンプトを使用し、抽象的で、意味的に密で、容易に解釈可能な要約を生成する。
論文参考訳（メタデータ） (2025-06-17T05:17:21Z)
Beyond Keywords: A Context-based Hybrid Approach to Mining Ethical Concern-related App Reviews [0.0]
倫理的懸念に関連するアプリケーションレビューは一般的にドメイン固有の言語を使用し、より多様な語彙を使って表現される。本研究では、自然言語推論(NLI)とデコーダ限定(LLaMAライク)大規模言語モデル(LLM)を組み合わせて、倫理的関心事に関するアプリレビューを大規模に抽出する、新しい自然言語処理(NLI)アプローチを提案する。
論文参考訳（メタデータ） (2024-11-11T22:08:48Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
LLM-Cure: LLM-based Competitor User Review Analysis for Feature Enhancement [0.7285835869818668]
本稿では,大規模言語モデル(LLM)に基づく機能拡張のための競合ユーザレビュー分析を提案する。 LLM-Cureは、LCMを適用して、レビュー内の特徴を特定し、分類する。 LLM-Cureは、ユーザーレビューに苦情を付けると、苦情に関連する競合アプリの高い評価(4と5の星)のレビューをキュレートする。
論文参考訳（メタデータ） (2024-09-24T04:17:21Z)
LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-07T04:00:30Z)
Elicitron: An LLM Agent-Based Simulation Framework for Design Requirements Elicitation [38.98478510165569]
本稿では,Large Language Models (LLMs) を利用した新たなフレームワークを提案する。 LLMは多数のシミュレーションユーザ(LLMエージェント)を生成するために使用され、より広い範囲のユーザニーズの探索を可能にする。
論文参考訳（メタデータ） (2024-04-04T17:36:29Z)
Fairness Concerns in App Reviews: A Study on AI-based Mobile Apps [9.948068408730654]
本研究は,モバイルアプリレビューにおける公平性の懸念を調査することを目的としている。我々の研究は、AIベースのモバイルアプリレビューに焦点を当てており、AIベースのアプリの不公平な振る舞いや結果が非AIベースのアプリよりも高い可能性がある。
論文参考訳（メタデータ） (2024-01-16T03:43:33Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Large Language Models as Automated Aligners for benchmarking Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文参考訳（メタデータ） (2023-11-24T16:12:05Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。 LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文参考訳（メタデータ） (2023-05-22T15:12:43Z)
Emerging App Issue Identification via Online Joint Sentiment-Topic Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。 AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。 Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文参考訳（メタデータ） (2020-08-23T06:34:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。