論文の概要: Exploring Zero-Shot App Review Classification with ChatGPT: Challenges and Potential
- arxiv url: http://arxiv.org/abs/2505.04759v1
- Date: Wed, 07 May 2025 19:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.654576
- Title: Exploring Zero-Shot App Review Classification with ChatGPT: Challenges and Potential
- Title(参考訳): ChatGPTによるゼロショットアプリレビュー分類の探索 : 課題と可能性
- Authors: Mohit Chaudhary, Chirag Jain, Preethu Rose Anish,
- Abstract要約: 本研究は,アプリレビューを機能要件,非機能要件,両方,あるいは両方に分類される4つのカテゴリに分類するために,ChatGPTを用いたゼロショット学習の可能性を検討する。
我々はChatGPTのパフォーマンスを、複数のドメインにまたがる10の多様なアプリから手動で注釈付きレビュー1,880のベンチマークデータセットで評価した。
- 参考スコア(独自算出の注目度): 1.1988955088595858
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: App reviews are a critical source of user feedback, offering valuable insights into an app's performance, features, usability, and overall user experience. Effectively analyzing these reviews is essential for guiding app development, prioritizing feature updates, and enhancing user satisfaction. Classifying reviews into functional and non-functional requirements play a pivotal role in distinguishing feedback related to specific app features (functional requirements) from feedback concerning broader quality attributes, such as performance, usability, and reliability (non-functional requirements). Both categories are integral to informed development decisions. Traditional approaches to classifying app reviews are hindered by the need for large, domain-specific datasets, which are often costly and time-consuming to curate. This study explores the potential of zero-shot learning with ChatGPT for classifying app reviews into four categories: functional requirement, non-functional requirement, both, or neither. We evaluate ChatGPT's performance on a benchmark dataset of 1,880 manually annotated reviews from ten diverse apps spanning multiple domains. Our findings demonstrate that ChatGPT achieves a robust F1 score of 0.842 in review classification, despite certain challenges and limitations. Additionally, we examine how factors such as review readability and length impact classification accuracy and conduct a manual analysis to identify review categories more prone to misclassification.
- Abstract(参考訳): アプリのレビューはユーザからのフィードバックの重要な源であり、アプリのパフォーマンス、機能、ユーザビリティ、ユーザエクスペリエンス全体に関する貴重な洞察を提供する。
これらのレビューを効果的に分析することは、アプリ開発を指導し、機能更新を優先順位付けし、ユーザの満足度を高めるために不可欠である。
機能的要件と非機能的要件にレビューを分類することは、特定のアプリ機能(機能的要件)に関するフィードバックと、パフォーマンスやユーザビリティ、信頼性(非機能的要件)といったより広範な品質特性に関するフィードバックを区別する上で、重要な役割を担います。
どちらのカテゴリーも情報開発の決定に不可欠である。
アプリのレビューを分類する従来のアプローチは、大きなドメイン固有のデータセットの必要性によって妨げられている。
本研究は,アプリレビューを機能要件,非機能要件,両方,あるいは両方に分類される4つのカテゴリに分類するために,ChatGPTを用いたゼロショット学習の可能性を検討する。
我々はChatGPTのパフォーマンスを、複数のドメインにまたがる10の多様なアプリから手動で注釈付きレビュー1,880のベンチマークデータセットで評価した。
以上の結果から,ChatGPTは,一定の課題や限界にもかかわらず,レビュー分類において0.842の頑健なF1スコアを達成できた。
さらに,レビューの可読性や長さなどの要因が分類精度にどのように影響するかを検討した。
関連論文リスト
- LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。
大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。
命令ベースのデータセットの微調整により、パフォーマンスが10~20ポイント向上する。
論文 参考訳(メタデータ) (2025-04-15T10:07:33Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - How Effectively Do LLMs Extract Feature-Sentiment Pairs from App Reviews? [2.218667838700643]
本研究は,GPT-4,ChatGPT,およびLlama-2チャットの異なる変種を含む最先端LLMの性能を比較した。
肯定的な感情と中立的な感情を予測するため、GPT-4は0ショット設定でf1スコアの76%と45%を達成している。
論文 参考訳(メタデータ) (2024-09-11T10:21:13Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Fairness Concerns in App Reviews: A Study on AI-based Mobile Apps [9.948068408730654]
本研究は,モバイルアプリレビューにおける公平性の懸念を調査することを目的としている。
我々の研究は、AIベースのモバイルアプリレビューに焦点を当てており、AIベースのアプリの不公平な振る舞いや結果が非AIベースのアプリよりも高い可能性がある。
論文 参考訳(メタデータ) (2024-01-16T03:43:33Z) - Evaluation of ChatGPT Feedback on ELL Writers' Coherence and Cohesion [0.7028778922533686]
ChatGPTは、学生が宿題を手伝うために利用し、教師が教育実践に積極的に採用している教育に変革をもたらす。
本研究は,英語学習者(ELL)のエッセイの一貫性と凝集性について,ChatGPTが生み出したフィードバックの質を評価した。
論文 参考訳(メタデータ) (2023-10-10T10:25:56Z) - Can GitHub Issues Help in App Review Classifications? [0.7366405857677226]
GitHubイシューから抽出した情報を活用することでラベル付きデータセットの拡張を支援する新しいアプローチを提案する。
以上の結果から,データ拡張にラベル付き問題を用いることで,F1スコアが6.3,機能要求が7.2に向上することが示された。
論文 参考訳(メタデータ) (2023-08-27T22:01:24Z) - SIFN: A Sentiment-aware Interactive Fusion Network for Review-based Item
Recommendation [48.1799451277808]
本稿では、レビューに基づく項目推薦のための感性認識型インタラクティブフュージョンネットワーク(SIFN)を提案する。
まず、BERTを介してユーザ/イテムレビューをエンコードし、各レビューのセマンティックな特徴を抽出する軽量な感情学習者を提案する。
そこで我々は,感情学習者が明示的な感情ラベルを用いて感情認識特徴を抽出するための感情予測タスクを提案する。
論文 参考訳(メタデータ) (2021-08-18T08:04:38Z) - TOUR: Dynamic Topic and Sentiment Analysis of User Reviews for Assisting
App Release [34.529117157417176]
TOURは、(i)アプリバージョンよりも新しいアプリの問題を検知し、要約し、(ii)アプリ機能に対するユーザー感情を特定し、(iii)開発者の検査を容易にするために重要なユーザーレビューを優先順位付けすることができる。
論文 参考訳(メタデータ) (2021-03-26T08:44:55Z) - Emerging App Issue Identification via Online Joint Sentiment-Topic
Tracing [66.57888248681303]
本稿では,MERITという新しい問題検出手法を提案する。
AOBSTモデルに基づいて、1つのアプリバージョンに対するユーザレビューに否定的に反映されたトピックを推測する。
Google PlayやAppleのApp Storeで人気のアプリに対する実験は、MERITの有効性を実証している。
論文 参考訳(メタデータ) (2020-08-23T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。