論文の概要: Evaluation and Measurement of Software Process Improvement -- A
Systematic Literature Review
- arxiv url: http://arxiv.org/abs/2307.13143v1
- Date: Mon, 24 Jul 2023 21:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 16:22:31.143906
- Title: Evaluation and Measurement of Software Process Improvement -- A
Systematic Literature Review
- Title(参考訳): ソフトウェアプロセス改善の評価と測定 --体系的文献レビュー-
- Authors: Michael Unterkalmsteiner, Tony Gorschek, A. K. M. Moinul Islam, Chow
Kian Cheng, Rahadian Bayu Permadi, Robert Feldt
- Abstract要約: ソフトウェアプロセス改善(Software Process Improvement, SPI)は、ソフトウェア開発組織の効率性と効率性を高めるための体系的なアプローチである。
本研究の目的は、異なるSPIイニシアチブの効果を評価するために用いられる評価戦略と測定値を特定し、特徴付けることである。
- 参考スコア(独自算出の注目度): 6.973622134568803
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: BACKGROUND: Software Process Improvement (SPI) is a systematic approach to
increase the efficiency and effectiveness of a software development
organization and to enhance software products. OBJECTIVE: This paper aims to
identify and characterize evaluation strategies and measurements used to assess
the impact of different SPI initiatives. METHOD: The systematic literature
review includes 148 papers published between 1991 and 2008. The selected papers
were classified according to SPI initiative, applied evaluation strategies, and
measurement perspectives. Potential confounding factors interfering with the
evaluation of the improvement effort were assessed. RESULTS: Seven distinct
evaluation strategies were identified, wherein the most common one, "Pre-Post
Comparison" was applied in 49 percent of the inspected papers. Quality was the
most measured attribute (62 percent), followed by Cost (41 percent), and
Schedule (18 percent). Looking at measurement perspectives, "Project"
represents the majority with 66 percent. CONCLUSION: The evaluation validity of
SPI initiatives is challenged by the scarce consideration of potential
confounding factors, particularly given that "Pre-Post Comparison" was
identified as the most common evaluation strategy, and the inaccurate
descriptions of the evaluation context. Measurements to assess the short and
mid-term impact of SPI initiatives prevail, whereas long-term measurements in
terms of customer satisfaction and return on investment tend to be less used.
- Abstract(参考訳): BACKGROUND: ソフトウェアプロセス改善(SPI)は、ソフトウェア開発組織の効率性と効率性を高め、ソフトウェア製品を強化するための体系的なアプローチです。
目的: 異なるspiイニシアチブの影響を評価するために使用される評価戦略と測定を識別・特徴化すること。
Method: 体系的な文献レビューには1991年から2008年の間に出版された148の論文が含まれている。
選択した論文は,SPIイニシアチブ,応用評価戦略,測定視点に基づいて分類した。
改善作業の評価に干渉する潜在的背景因子を評価した。
結果: 7つの異なる評価戦略が特定され, 調査論文の49%に「前比較」が適用された。
品質は最も測定された属性(62%)で、次いでコスト(41%)とスケジュール(18%)が続いた。
測定の観点では、"プロジェクト"が66%を占めています。
結論:spiイニシアチブの評価妥当性は,最も一般的な評価戦略として「前比較」が同定されたことや,評価コンテキストの不正確な説明を考えると,潜在的共起要因の少なさに疑問が持たれている。
SPIイニシアチブの短期的・中期的な影響を評価する尺度が一般的であるが、顧客満足度や投資のリターンの観点からの長期的評価は少ない傾向にある。
関連論文リスト
- Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - A Comprehensive Survey of Evaluation Techniques for Recommendation
Systems [0.0]
本稿では,システム性能の異なる側面を捉えた,総合的なメトリクススイートを紹介する。
私たちは、現在の評価プラクティスの長所と短所を特定し、さまざまなメトリクスにまたがってレコメンデーションシステムを最適化するときに現れる、微妙なトレードオフを強調します。
論文 参考訳(メタデータ) (2023-12-26T11:57:01Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - A conceptual framework for SPI evaluation [6.973622134568803]
SPI-MEFは、評価のスコーピング、測定、評価の実行において実践者を導く。
SPI-MEFはプロセス改善の具体的なアプローチを前提とせず、既存の測定プログラムに統合できる。
論文 参考訳(メタデータ) (2023-07-24T19:22:58Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [78.18992019606533]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、21のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見する。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Evaluating the Predictive Performance of Positive-Unlabelled
Classifiers: a brief critical review and practical recommendations for
improvement [77.34726150561087]
Positive-Unlabelled (PU) 学習は機械学習の領域として成長している。
本稿では、PU分類器を提案する51の論文において、主要なPU学習評価手法と予測精度の選択について批判的にレビューする。
論文 参考訳(メタデータ) (2022-06-06T08:31:49Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Impacts Towards a comprehensive assessment of the book impact by
integrating multiple evaluation sources [6.568523667580746]
本稿では,複数の評価源を統合することで構築された評価システムに基づいて,書籍の影響を測定する。
様々な技術(トピック抽出、感情分析、テキスト分類など)を用いて、対応する評価指標を抽出した。
評価システムの信頼性を専門家評価の結果と比較して検証した。
論文 参考訳(メタデータ) (2021-07-22T03:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。