Fugu-MT 論文翻訳(概要): Evaluation and Measurement of Software Process Improvement -- A Systematic Literature Review

論文の概要: Evaluation and Measurement of Software Process Improvement -- A Systematic Literature Review

arxiv url: http://arxiv.org/abs/2307.13143v1
Date: Mon, 24 Jul 2023 21:51:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 16:22:31.143906
Title: Evaluation and Measurement of Software Process Improvement -- A Systematic Literature Review
Title（参考訳）: ソフトウェアプロセス改善の評価と測定 --体系的文献レビュー-
Authors: Michael Unterkalmsteiner, Tony Gorschek, A. K. M. Moinul Islam, Chow Kian Cheng, Rahadian Bayu Permadi, Robert Feldt
Abstract要約: ソフトウェアプロセス改善(Software Process Improvement, SPI)は、ソフトウェア開発組織の効率性と効率性を高めるための体系的なアプローチである。本研究の目的は、異なるSPIイニシアチブの効果を評価するために用いられる評価戦略と測定値を特定し、特徴付けることである。
参考スコア（独自算出の注目度）: 6.973622134568803
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: BACKGROUND: Software Process Improvement (SPI) is a systematic approach to increase the efficiency and effectiveness of a software development organization and to enhance software products. OBJECTIVE: This paper aims to identify and characterize evaluation strategies and measurements used to assess the impact of different SPI initiatives. METHOD: The systematic literature review includes 148 papers published between 1991 and 2008. The selected papers were classified according to SPI initiative, applied evaluation strategies, and measurement perspectives. Potential confounding factors interfering with the evaluation of the improvement effort were assessed. RESULTS: Seven distinct evaluation strategies were identified, wherein the most common one, "Pre-Post Comparison" was applied in 49 percent of the inspected papers. Quality was the most measured attribute (62 percent), followed by Cost (41 percent), and Schedule (18 percent). Looking at measurement perspectives, "Project" represents the majority with 66 percent. CONCLUSION: The evaluation validity of SPI initiatives is challenged by the scarce consideration of potential confounding factors, particularly given that "Pre-Post Comparison" was identified as the most common evaluation strategy, and the inaccurate descriptions of the evaluation context. Measurements to assess the short and mid-term impact of SPI initiatives prevail, whereas long-term measurements in terms of customer satisfaction and return on investment tend to be less used.
Abstract（参考訳）: BACKGROUND: ソフトウェアプロセス改善(SPI)は、ソフトウェア開発組織の効率性と効率性を高め、ソフトウェア製品を強化するための体系的なアプローチです。目的: 異なるspiイニシアチブの影響を評価するために使用される評価戦略と測定を識別・特徴化すること。 Method: 体系的な文献レビューには1991年から2008年の間に出版された148の論文が含まれている。選択した論文は,SPIイニシアチブ,応用評価戦略,測定視点に基づいて分類した。改善作業の評価に干渉する潜在的背景因子を評価した。結果: 7つの異なる評価戦略が特定され, 調査論文の49%に「前比較」が適用された。品質は最も測定された属性(62%)で、次いでコスト(41%)とスケジュール(18%)が続いた。測定の観点では、"プロジェクト"が66%を占めています。結論:spiイニシアチブの評価妥当性は,最も一般的な評価戦略として「前比較」が同定されたことや,評価コンテキストの不正確な説明を考えると,潜在的共起要因の少なさに疑問が持たれている。 SPIイニシアチブの短期的・中期的な影響を評価する尺度が一般的であるが、顧客満足度や投資のリターンの観点からの長期的評価は少ない傾向にある。

関連論文リスト

What Matters in Evaluating Book-Length Stories? A Systematic Study of Long Story Evaluation [59.626962970198434]
最初の大規模ベンチマークであるLongStoryEvalを導入し,平均121Kトークン(最大397K)の600冊を新たに発行した。ユーザによるすべての側面の分析により、評価基準構造を提案し、最も重要な側面を識別するための実験を行う。評価手法として,アグリゲーションベース,インクリメンタル更新,要約ベースの評価の3つのタイプの有効性を比較した。
論文参考訳（メタデータ） (2025-12-14T20:53:29Z)
Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。 182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文参考訳（メタデータ） (2025-08-14T16:18:37Z)
Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T16:39:41Z)
Identifying Aspects in Peer Reviews [61.374437855024844]
我々は、ピアレビューのコーパスからきめ細かいアスペクトを抽出するデータ駆動型スキーマを開発した。我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文参考訳（メタデータ） (2025-04-09T14:14:42Z)
HPSS: Heuristic Prompting Strategy Search for LLM Evaluators [81.09765876000208]
我々はHuristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、評価者に対する適切な手順を見つける。 4つの評価課題にわたる大規模な実験により,HPSSの有効性が示された。
論文参考訳（メタデータ） (2025-02-18T16:46:47Z)
Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。 9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文参考訳（メタデータ） (2024-10-03T13:02:07Z)
A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文参考訳（メタデータ） (2024-09-29T01:30:13Z)
Learning Outcomes, Assessment, and Evaluation in Educational Recommender Systems: A Systematic Review [0.0]
教育レコメンダシステム(ERS)における学習の測定と最適化について分析する。レーティングベースの関連性は最も人気のあるターゲットメトリックであり、半数未満の論文が学習ベースのメトリクスを最適化している。論文の3分の1は結果に基づく評価を使用してレコメンデーションの教育効果を測定した。
論文参考訳（メタデータ） (2024-06-12T21:53:46Z)
Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文参考訳（メタデータ） (2024-01-30T15:45:30Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
A conceptual framework for SPI evaluation [6.973622134568803]
SPI-MEFは、評価のスコーピング、測定、評価の実行において実践者を導く。 SPI-MEFはプロセス改善の具体的なアプローチを前提とせず、既存の測定プログラムに統合できる。
論文参考訳（メタデータ） (2023-07-24T19:22:58Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Evaluating the Predictive Performance of Positive-Unlabelled Classifiers: a brief critical review and practical recommendations for improvement [77.34726150561087]
Positive-Unlabelled (PU) 学習は機械学習の領域として成長している。本稿では、PU分類器を提案する51の論文において、主要なPU学習評価手法と予測精度の選択について批判的にレビューする。
論文参考訳（メタデータ） (2022-06-06T08:31:49Z)
Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-02T19:41:47Z)
Impacts Towards a comprehensive assessment of the book impact by integrating multiple evaluation sources [6.568523667580746]
本稿では,複数の評価源を統合することで構築された評価システムに基づいて,書籍の影響を測定する。様々な技術(トピック抽出、感情分析、テキスト分類など)を用いて、対応する評価指標を抽出した。評価システムの信頼性を専門家評価の結果と比較して検証した。
論文参考訳（メタデータ） (2021-07-22T03:11:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。