論文の概要: Automatic Classification of User Requirements from Online Feedback -- A Replication Study
- arxiv url: http://arxiv.org/abs/2507.21532v1
- Date: Tue, 29 Jul 2025 06:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.764593
- Title: Automatic Classification of User Requirements from Online Feedback -- A Replication Study
- Title(参考訳): オンラインフィードバックによるユーザ要求の自動分類 -レプリケーションによる検討-
- Authors: Meet Bhatt, Nic Boilard, Muhammad Rehan Chaudhary, Cole Thompson, Jacob Idoko, Aakash Sorathiya, Gouri Ginde,
- Abstract要約: 我々は、ユーザレビューから要件分類のための異なるディープラーニングモデルを評価する、以前のNLP4RE研究(ベースライン)を再現する。
公開ソースコードを用いて元の結果を再現し,ベースライン研究の外部的妥当性を高めるのに役立てた。
その結果,ベースラインディープラーニングモデルであるBERTとELMoが外部データセットに優れた性能を示し,GPT-4oは従来のベースライン機械学習モデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) techniques have been widely applied in the requirements engineering (RE) field to support tasks such as classification and ambiguity detection. Although RE research is rooted in empirical investigation, it has paid limited attention to replicating NLP for RE (NLP4RE) studies. The rapidly advancing realm of NLP is creating new opportunities for efficient, machine-assisted workflows, which can bring new perspectives and results to the forefront. Thus, we replicate and extend a previous NLP4RE study (baseline), "Classifying User Requirements from Online Feedback in Small Dataset Environments using Deep Learning", which evaluated different deep learning models for requirement classification from user reviews. We reproduced the original results using publicly released source code, thereby helping to strengthen the external validity of the baseline study. We then extended the setup by evaluating model performance on an external dataset and comparing results to a GPT-4o zero-shot classifier. Furthermore, we prepared the replication study ID-card for the baseline study, important for evaluating replication readiness. Results showed diverse reproducibility levels across different models, with Naive Bayes demonstrating perfect reproducibility. In contrast, BERT and other models showed mixed results. Our findings revealed that baseline deep learning models, BERT and ELMo, exhibited good generalization capabilities on an external dataset, and GPT-4o showed performance comparable to traditional baseline machine learning models. Additionally, our assessment confirmed the baseline study's replication readiness; however missing environment setup files would have further enhanced readiness. We include this missing information in our replication package and provide the replication study ID-card for our study to further encourage and support the replication of our study.
- Abstract(参考訳): 自然言語処理(NLP)技術は、分類やあいまいさ検出などのタスクを支援するために要求工学(RE)分野に広く応用されている。
RE研究は実証研究に根ざしているが、RE研究のためのNLP(NLP4RE)の複製に限定的な注意を払っている。
NLPの急速に進歩している領域は、効率的でマシン支援のワークフローのための新たな機会を生み出している。
そこで我々は,従来のNLP4RE研究(ベースライン)である「Deep Learning を用いた小型データセット環境におけるオンラインフィードバックからのユーザ要求の分類」を再現し,拡張し,ユーザレビューから要件分類のための異なるディープラーニングモデルを評価した。
公開ソースコードを用いて元の結果を再現し,ベースライン研究の外部的妥当性を高めるのに役立てた。
次に、外部データセット上でモデル性能を評価し、結果をGPT-4oゼロショット分類器と比較することにより、設定を拡張した。
さらに,本研究では,複製準備性を評価する上で重要なベースライン研究のための複製研究IDカードを作成した。
その結果、異なるモデルで様々な再現性レベルが示され、Naive Bayes は完全な再現性を示した。
対照的に、BERTや他のモデルでは、様々な結果が得られた。
その結果,ベースラインディープラーニングモデルであるBERTとELMoは外部データセット上で優れた一般化能力を示し,GPT-4oは従来のベースライン機械学習モデルに匹敵する性能を示した。
さらに,本研究の複製準備性も確認した。しかし,環境設定ファイルの欠落により再現性はさらに向上した。
我々は,この欠落情報を複製パッケージに含め,複製研究IDカードを我々の研究に提供し,複製の促進と支援を行っている。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - RAG-RL: Advancing Retrieval-Augmented Generation via RL and Curriculum Learning [24.648819770922515]
本稿では,回答生成モデルであるRAG-RLを紹介する。
私たちのアプローチはカリキュラム学習を使用し、モデルがまず、関連するコンテキストのみを含む簡単な例に基づいて訓練される。
実験により,これらのトレーニングサンプルにより,より優れたサンプル効率と一般化性を有する引用・推論能力が得られることが示された。
論文 参考訳(メタデータ) (2025-03-17T02:53:42Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Position: Quo Vadis, Unsupervised Time Series Anomaly Detection? [11.269007806012931]
Timeseries Anomaly Detection (TAD)における機械学習奨学金の現状は、欠陥のある評価指標の持続的使用に悩まされている。
本稿は,TADにおける現状を批判的に分析し,現在の研究の誤解を招きかねない軌跡を明らかにした。
論文 参考訳(メタデータ) (2024-05-04T14:43:31Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Predicting the Reproducibility of Social and Behavioral Science Papers
Using Supervised Learning Models [21.69933721765681]
本論文では,学術研究から5種類の特徴を抽出し,公開研究クレームの評価を支援するフレームワークを提案する。
個々の特徴と人間評価の基底真理ラベルのセットを予測するための重要性のペアワイズ相関を分析します。
論文 参考訳(メタデータ) (2021-04-08T00:45:20Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。