Fugu-MT 論文翻訳(概要): A conceptual framework for SPI evaluation

論文の概要: A conceptual framework for SPI evaluation

arxiv url: http://arxiv.org/abs/2307.13089v1
Date: Mon, 24 Jul 2023 19:22:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 16:21:39.589028
Title: A conceptual framework for SPI evaluation
Title（参考訳）: SPI評価のための概念的枠組み
Authors: Michael Unterkalmsteiner, Tony Gorschek, A. K. M. Moinul Islam, Chow Kian Cheng, Rahadian Bayu Permadi, Robert Feldt
Abstract要約: SPI-MEFは、評価のスコーピング、測定、評価の実行において実践者を導く。 SPI-MEFはプロセス改善の具体的なアプローチを前提とせず、既存の測定プログラムに統合できる。
参考スコア（独自算出の注目度）: 6.973622134568803
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Software Process Improvement (SPI) encompasses the analysis and modification of the processes within software development, aimed at improving key areas that contribute to the organizations' goals. The task of evaluating whether the selected improvement path meets these goals is challenging. On the basis of the results of a systematic literature review on SPI measurement and evaluation practices, we developed a framework (SPI Measurement and Evaluation Framework (SPI-MEF)) that supports the planning and implementation of SPI evaluations. SPI-MEF guides the practitioner in scoping the evaluation, determining measures, and performing the assessment. SPI-MEF does not assume a specific approach to process improvement and can be integrated in existing measurement programs, refocusing the assessment on evaluating the improvement initiative's outcome. Sixteen industry and academic experts evaluated the framework's usability and capability to support practitioners, providing additional insights that were integrated in the application guidelines of the framework.
Abstract（参考訳）: ソフトウェアプロセス改善(SPI)は、組織の目標に寄与する重要な領域を改善することを目的として、ソフトウェア開発におけるプロセスの分析と修正を含む。選択した改善パスがこれらの目標を達成するかどうかを評価するタスクは難しい。本研究では,SPI測定および評価実践に関する体系的な文献レビューの結果に基づいて,SPI評価の計画と実施を支援するフレームワーク(SPI-MEF)を開発した。 SPI-MEFは、評価のスコーピング、測定、評価の実行において実践者を導く。 SPI-MEFは、プロセス改善の具体的なアプローチを前提とせず、既存の測定プログラムに統合し、改善イニシアティブの結果を評価するための評価を再考する。 16の業界と学術の専門家が、実践者を支援するためのフレームワークのユーザビリティと能力を評価し、フレームワークのアプリケーションガイドラインに組み込まれたさらなる洞察を提供した。

関連論文リスト

Responsible Evaluation of AI for Mental Health [72.85175110624736]
メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
論文参考訳（メタデータ） (2026-01-20T12:55:10Z)
AGACCI : Affiliated Grading Agents for Criteria-Centric Interface in Educational Coding Contexts [0.6050976240234864]
本稿では,協調エージェント間で専門的な評価を分散するマルチエージェントシステムAGACCIを紹介する。 AGACCIは、ルーブリックとフィードバックの正確性、妥当性、一貫性、一貫性の点で、単一のGPTベースのベースラインを上回っている。
論文参考訳（メタデータ） (2025-07-07T15:50:46Z)
OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。広範囲に展開したことにより、大きな安全上の懸念がもたらされた。 LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文参考訳（メタデータ） (2025-06-06T05:50:50Z)
Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。 8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文参考訳（メタデータ） (2025-05-06T08:22:51Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
Evaluating Step-by-step Reasoning Traces: A Survey [3.895864050325129]
ステップバイステップ推論は、複雑な問題における大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。既存の評価プラクティスは非常に一貫性がなく、その結果、評価器の設計とベンチマーク開発の間に断片的な進歩をもたらす。本調査は,4つのトップレベルカテゴリー(実効性,妥当性,一貫性,実用性)による評価基準の分類について提案する。
論文参考訳（メタデータ） (2025-02-17T19:58:31Z)
A Brief Discussion on KPI Development in Public Administration [0.0]
本稿では,ランダムフォレストアルゴリズムと変数重要度解析を利用して,性能評価システム内に構築する革新的なフレームワークを提案する。提案したアプローチでは,PAのパフォーマンスに大きく影響する重要な変数を特定し,組織の成功を導く重要な要因に関する貴重な洞察を提供する。本研究は,機械学習技術の適用によるPAパフォーマンスの向上を目標とし,よりアジャイルで結果駆動型のアプローチを公共行政に導入することを目的とする。
論文参考訳（メタデータ） (2024-12-12T10:27:55Z)
Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文参考訳（メタデータ） (2024-10-20T16:08:54Z)
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。このフレームワークは、評価の推測と報告のための体系的な構造を提供する。我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-06-14T18:47:37Z)
Holistic Safety and Responsibility Evaluations of Advanced AI Models [18.34510620901674]
高度なAIモデルの安全性と責任評価は、研究と実践の重要な分野である。 Google DeepMindの高度なAIモデルの開発において、安全評価に幅広いアプローチを革新し、適用しました。
論文参考訳（メタデータ） (2024-04-22T10:26:49Z)
A Survey of Automatic Hallucination Evaluation on Natural Language Generation [21.37538215193138]
LLM(Large Language Models)の急速な進歩は、モデルの信頼性を保証するために、幻覚を確実に評価する方法という、大きな課題をもたらしました。本調査は105の評価手法を体系的に分析し,77.1%がLLMを対象としていることを明らかにする。基礎的なデータセットとベンチマークの調査と評価方法論の分類に基づいて、フィールドを整理するための構造化された枠組みを定式化する。
論文参考訳（メタデータ） (2024-04-18T09:52:18Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Literature Review of Current Sustainability Assessment Frameworks and Approaches for Organizations [10.045497511868172]
本稿では,サステナビリティ・アセスメント・フレームワーク(SAF)を多種多様な産業に展開する。本稿では,サステナビリティ・インジケータ(SI)の選択方法,相対的重要性評価,相互依存分析など,SAF設計のアプローチに焦点を当てる。
論文参考訳（メタデータ） (2024-03-07T18:14:52Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
Evaluation and Measurement of Software Process Improvement -- A Systematic Literature Review [6.973622134568803]
ソフトウェアプロセス改善(Software Process Improvement, SPI)は、ソフトウェア開発組織の効率性と効率性を高めるための体系的なアプローチである。本研究の目的は、異なるSPIイニシアチブの効果を評価するために用いられる評価戦略と測定値を特定し、特徴付けることである。
論文参考訳（メタデータ） (2023-07-24T21:51:15Z)
Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文参考訳（メタデータ） (2021-06-24T15:58:01Z)
Evaluating Interactive Summarization: an Expansion-Based Framework [97.0077722128397]
対話型要約のためのエンドツーエンド評価フレームワークを開発した。我々のフレームワークには、実際のユーザセッションの収集手順と、標準に依存する評価方法が含まれています。当社のソリューションはすべて、ベンチマークとして公開されることを意図しています。
論文参考訳（メタデータ） (2020-09-17T15:48:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。