論文の概要: Enhancement Report Approval Prediction: A Comparative Study of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15098v1
- Date: Wed, 18 Jun 2025 03:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.535936
- Title: Enhancement Report Approval Prediction: A Comparative Study of Large Language Models
- Title(参考訳): 拡張レポート承認予測:大規模言語モデルの比較研究
- Authors: Haosheng Zuo, Feifei Niu, Chuanyi Li,
- Abstract要約: 拡張レポート(ER)は、ユーザと開発者の間の重要なコミュニケーションチャネルとして機能し、ソフトウェア改善のための貴重な提案を捉えます。
この課題に対処するために、研究の焦点として強化報告承認予測(ERAP)が登場している。
大規模言語モデル(LLM)の最近の進歩は、予測精度を向上する新たな機会を提供する。
- 参考スコア(独自算出の注目度): 10.243182983724585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancement reports (ERs) serve as a critical communication channel between users and developers, capturing valuable suggestions for software improvement. However, manually processing these reports is resource-intensive, leading to delays and potential loss of valuable insights. To address this challenge, enhancement report approval prediction (ERAP) has emerged as a research focus, leveraging machine learning techniques to automate decision-making. While traditional approaches have employed feature-based classifiers and deep learning models, recent advancements in large language models (LLM) present new opportunities for enhancing prediction accuracy. This study systematically evaluates 18 LLM variants (including BERT, RoBERTa, DeBERTa-v3, ELECTRA, and XLNet for encoder models; GPT-3.5-turbo, GPT-4o-mini, Llama 3.1 8B, Llama 3.1 8B Instruct and DeepSeek-V3 for decoder models) against traditional methods (CNN/LSTM-BERT/GloVe). Our experiments reveal two key insights: (1) Incorporating creator profiles increases unfine-tuned decoder-only models' overall accuracy by 10.8 percent though it may introduce bias; (2) LoRA fine-tuned Llama 3.1 8B Instruct further improve performance, reaching 79 percent accuracy and significantly enhancing recall for approved reports (76.1 percent vs. LSTM-GLOVE's 64.1 percent), outperforming traditional methods by 5 percent under strict chronological evaluation and effectively addressing class imbalance issues. These findings establish LLM as a superior solution for ERAP, demonstrating their potential to streamline software maintenance workflows and improve decision-making in real-world development environments. We also investigated and summarized the ER cases where the large models underperformed, providing valuable directions for future research.
- Abstract(参考訳): 拡張レポート(ER)は、ユーザと開発者の間の重要なコミュニケーションチャネルとして機能し、ソフトウェア改善のための貴重な提案を捉えます。
しかし、これらのレポートを手作業で処理することはリソース集約的であり、遅延や貴重な洞察の潜在的な喪失につながる。
この課題に対処するために、機械学習技術を活用して意思決定を自動化する研究の焦点としてエンハンスメントレポート承認予測(ERAP)が登場した。
従来の手法では特徴に基づく分類器とディープラーニングモデルを採用してきたが、近年の大規模言語モデル(LLM)の進歩は、予測精度を向上する新たな機会を提供する。
本研究では,従来の手法 (CNN/LSTM-BERT/GloVe) に対して, BERT, RoBERTa, DeBERTa-v3, ELECTRA, XLNet, GPT-3.5-turbo, GPT-4o-mini, Llama 3.1 8B, Llama 3.1 8B Instruct and DeepSeek-V3) を体系的に評価した。
筆者らの実験では,(1)非微調整デコーダのみのモデルの全体的な精度を10.8%向上させるが,バイアスを生じさせる可能性がある。(2) LoRA微調整のLlama 3.1 8B 精度をさらに向上させ,79パーセントの精度を達成し,承認されたレポートのリコールを著しく向上させる(76.1%対LSTM-GLOVEの64.1%)。
これらの結果は、ERAPの優れたソリューションとしてLLMを確立し、ソフトウェアメンテナンスワークフローを効率化し、現実世界の開発環境における意思決定を改善する可能性を実証している。
また,大規模モデルの性能が低下したER症例についても検討・要約を行い,今後の研究に有用な方向を示した。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - RECSIP: REpeated Clustering of Scores Improving the Precision [0.0]
本稿では,repeated Clustering of Scores Improving the Precision (RECSIP)を紹介する。
RECSIPは大規模言語モデル(LLM)の精度向上に重点を置いており、複数のモデルを並列に問い合わせ、応答のスコア付けとクラスタ化を行い、応答に対する信頼性を高める。
GPT-4o, Claude, Gemini モデルを用いたベンチマーク MMLU-Pro による基準実装の評価では, 使用済みモデルと比較して総合的に5.8% の増加が見られた。
論文 参考訳(メタデータ) (2025-03-15T12:36:32Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Can Large Language Model Predict Employee Attrition? [0.0]
本研究では,GPT-3.5モデルの予測精度と解釈可能性について,従来の機械学習(ML)と比較した。
GPT-3.5の精度は0.91、リコールは0.94、F1スコアは0.92、SVMはF1スコアは0.82、ランダムフォレストとXGBoostは0.80である。
論文 参考訳(メタデータ) (2024-11-02T19:50:39Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。