論文の概要: Classification of Quality Characteristics in Online User Feedback using Linguistic Analysis, Crowdsourcing and LLMs
- arxiv url: http://arxiv.org/abs/2506.11722v1
- Date: Fri, 13 Jun 2025 12:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.784343
- Title: Classification of Quality Characteristics in Online User Feedback using Linguistic Analysis, Crowdsourcing and LLMs
- Title(参考訳): 言語分析, クラウドソーシング, LLMを用いたオンラインユーザフィードバックの品質特性の分類
- Authors: Eduard C. Groen, Fabiano Dalpiaz, Martijn van Vliet, Boris Winter, Joerg Doerr, Sjaak Brinkkemper,
- Abstract要約: オンラインユーザからのフィードバックは、ソフトウェア製品に対する品質関連のフィードバックの貴重な情報源です。
オンラインユーザからのフィードバックが多ければ多いほど、品質特性の自動識別が保証される。
低データ設定に有効な3つのアプローチの有効性について検討する。
- 参考スコア(独自算出の注目度): 0.9565934024763957
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Software qualities such as usability or reliability are among the strongest determinants of mobile app user satisfaction and constitute a significant portion of online user feedback on software products, making it a valuable source of quality-related feedback to guide the development process. The abundance of online user feedback warrants the automated identification of quality characteristics, but the online user feedback's heterogeneity and the lack of appropriate training corpora limit the applicability of supervised machine learning. We therefore investigate the viability of three approaches that could be effective in low-data settings: language patterns (LPs) based on quality-related keywords, instructions for crowdsourced micro-tasks, and large language model (LLM) prompts. We determined the feasibility of each approach and then compared their accuracy. For the complex multiclass classification of quality characteristics, the LP-based approach achieved a varied precision (0.38-0.92) depending on the quality characteristic, and low recall; crowdsourcing achieved the best average accuracy in two consecutive phases (0.63, 0.72), which could be matched by the best-performing LLM condition (0.66) and a prediction based on the LLMs' majority vote (0.68). Our findings show that in this low-data setting, the two approaches that use crowdsourcing or LLMs instead of involving experts achieve accurate classifications, while the LP-based approach has only limited potential. The promise of crowdsourcing and LLMs in this context might even extend to building training corpora.
- Abstract(参考訳): ユーザビリティや信頼性といったソフトウェア品質は、モバイルアプリのユーザ満足度において最強の決定要因のひとつであり、ソフトウェア製品に対するオンラインユーザフィードバックの大部分を占めています。
オンラインユーザフィードバックの多さは、品質特性の自動識別を保証するが、オンラインユーザフィードバックの不均一性と適切なトレーニングコーパスの欠如は、教師付き機械学習の適用性を制限している。
そこで我々は,低データ設定に有効な3つのアプローチとして,品質関連キーワードに基づく言語パターン(LP),クラウドソース型マイクロタスクのための命令,大規模言語モデル(LLM)プロンプトについて検討した。
それぞれのアプローチの実現可能性を決定し,その精度を比較した。
品質特性の複雑な多クラス分類において、LPベースのアプローチは、品質特性や低いリコールに応じて様々な精度(0.38-0.92)を達成し、クラウドソーシングは、2つの連続フェーズ (0.63, 0.72) において最高の平均精度を達成し、最高のLCM条件 (0.66) とLDMの多数投票 (0.68) に基づく予測によって一致させることができる。
この低データ環境では,専門家が正確な分類を行うのではなく,クラウドソーシングやLCMを使う2つのアプローチが,LPベースのアプローチは限られた可能性しか持たないことがわかった。
この文脈におけるクラウドソーシングとLCMの約束は、トレーニングコーパスの構築にまで拡張されるかもしれない。
関連論文リスト
- Validating LLM-Generated Relevance Labels for Educational Resource Search [2.2175950967382487]
本研究は,教師が授業計画に関連する検索タスクを実行することを含むユーザスタディから,401人の人間関係判断データセットを作成した。
ドメイン固有のフレームワークを使用して、LLMは人間の判断と強く一致した。
システムレベル評価の結果,LLM判定は高い性能の検索手法を確実に同定した。
論文 参考訳(メタデータ) (2025-04-17T08:14:45Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。