Fugu-MT 論文翻訳(概要): Critical Considerations on Effort-aware Software Defect Prediction Metrics

論文の概要: Critical Considerations on Effort-aware Software Defect Prediction Metrics

arxiv url: http://arxiv.org/abs/2504.19181v1
Date: Sun, 27 Apr 2025 10:07:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.166825
Title: Critical Considerations on Effort-aware Software Defect Prediction Metrics
Title（参考訳）: ソフトウェア欠陥予測基準に関する批判的考察
Authors: Luigi Lavazza, Gabriele Rotoloni, Sandro Morasca,
Abstract要約: EAM(Effort-aware metrics)は、ソフトウェア欠陥予測モデルの有効性を評価するために広く利用されている。通常の仮定では、この取り組みはLOCで測定された加群の大きさに比例する。モジュールの取り組みドライバとして使用されるコード測度の選択が、結果の評価に決定的に影響を及ぼすことを示す。
参考スコア（独自算出の注目度）: 1.4624458429745086
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Background. Effort-aware metrics (EAMs) are widely used to evaluate the effectiveness of software defect prediction models, while accounting for the effort needed to analyze the software modules that are estimated defective. The usual underlying assumption is that this effort is proportional to the modules' size measured in LOC. However, the research on module analysis (including code understanding, inspection, testing, etc.) suggests that module analysis effort may be better correlated to code attributes other than size. Aim. We investigate whether assuming that module analysis effort is proportional to other code metrics than LOC leads to different evaluations. Method. We show mathematically that the choice of the code measure used as the module effort driver crucially influences the resulting evaluations. To illustrate the practical consequences of this, we carried out a demonstrative empirical study, in which the same model was evaluated via EAMs, assuming that effort is proportional to either McCabe's complexity or LOC. Results. The empirical study showed that EAMs depend on the underlying effort model, and can give quite different indications when effort is modeled differently. It is also apparent that the extent of these differences varies widely. Conclusions. Researchers and practitioners should be aware that the reliability of the indications provided by EAMs depend on the nature of the underlying effort model. The EAMs used until now appear to be actually size-aware, rather than effort-aware: when analysis effort does not depend on size, these EAMs can be misleading.
Abstract（参考訳）: 背景。 EAM(Effort-aware metrics)は、ソフトウェア欠陥予測モデルの有効性を評価するのに広く使われており、ソフトウェア欠陥を推定するソフトウェアモジュールを分析するのに必要な労力を考慮に入れている。通常の仮定では、この取り組みはLOCで測定された加群の大きさに比例する。しかし、モジュール分析(コード理解、検査、テストなどを含む)の研究は、モジュール分析の取り組みがサイズ以外のコード属性とより相関している可能性を示唆している。エイム。モジュール解析の取り組みがLOCよりも他のコードメトリクスに比例すると仮定すると、異なる評価がもたらされるかどうかを検討する。方法。モジュールの取り組みドライバとして使用されるコード測度の選択が、結果の評価に決定的に影響を及ぼすことを示す。実際の結果を説明するために実証実験を行い、同じモデルをEMAを用いて評価し、その労力がマッケイブの複雑さまたはLOCに比例すると仮定した。結果。実証実験では、EMAは基礎となる作業モデルに依存しており、作業が異なるモデルでモデル化された場合、全く異なる指標を与えることができることが示された。また、これらの違いの程度は様々である。結論。研究者や実践者は、EAMが提供する指標の信頼性が基礎となる取り組みモデルの性質に依存していることに気付くべきである。今まで使われてきたEAMは、努力ではなく、実際にサイズを意識しているように見える:分析の労力がサイズに依存しない場合、これらのEAMは誤解を招く可能性がある。

関連論文リスト

Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Improving Applicability of Deep Learning based Token Classification models during Training [0.0]
F1-Scoreで表される分類基準は、実際に機械学習モデルの適用性を評価するには不十分であることを示す。本稿では,視覚的文書理解とトークン分類タスクのソリューションとして,文書統合精度(Document Integrity Precision, DIP)を導入した。
論文参考訳（メタデータ） (2025-03-28T17:01:19Z)
Revitalizing Saturated Benchmarks: A Weighted Metric Approach for Differentiating Large Language Model Performance [3.666887868385651]
既存のベンチマークは飽和しており、データ汚染などの要因によりモデルパフォーマンスの分離に苦慮している。本稿では,モデル分離の強化によってベンチマークを活性化する新しい重み付き計量である拡張モデル微分メトリックを紹介する。
論文参考訳（メタデータ） (2025-03-07T16:25:09Z)
Size-invariance Matters: Rethinking Metrics and Losses for Imbalanced Multi-object Salient Object Detection [133.66006666465447]
現在のメトリクスはサイズに敏感で、大きなオブジェクトが集中し、小さなオブジェクトが無視される傾向があります。サイズに基づくバイアスは、追加のセマンティック情報なしでは不適切であるため、評価はサイズ不変であるべきだと論じる。我々は,この目標に適した最適化フレームワークを開発し,異なる大きさのオブジェクトの検出において,大幅な改善を実現した。
論文参考訳（メタデータ） (2024-05-16T03:01:06Z)
Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文参考訳（メタデータ） (2024-01-18T08:12:23Z)
DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文参考訳（メタデータ） (2023-06-27T16:59:06Z)
Think Twice: Measuring the Efficiency of Eliminating Prediction Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文参考訳（メタデータ） (2023-05-11T14:35:00Z)
Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。 Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。 LASSO を用いて Model-to-Match フレームワークを運用する。
論文参考訳（メタデータ） (2023-02-23T00:43:03Z)
A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。 FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文参考訳（メタデータ） (2022-06-22T09:27:31Z)
Unveiling Project-Specific Bias in Neural Code Models [20.131797671630963]
大規模言語モデル(LLM)ベースのニューラルネットワークモデルは、実際のプロジェクト間アウトオブディストリビューション(OOD)データに効果的に一般化するのに苦労することが多い。この現象は, 地中真実の証拠ではなく, プロジェクト固有のショートカットによる予測に大きく依存していることが示唆された。サンプル間の潜在論理関係を利用してモデルの学習行動を規則化する新しいバイアス緩和機構を提案する。
論文参考訳（メタデータ） (2022-01-19T02:09:48Z)
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文参考訳（メタデータ） (2020-12-08T18:03:21Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。