Fugu-MT 論文翻訳(概要): State Field Coverage: A Metric for Oracle Quality

論文の概要: State Field Coverage: A Metric for Oracle Quality

arxiv url: http://arxiv.org/abs/2510.03071v1
Date: Fri, 03 Oct 2025 14:57:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 16:35:52.436966
Title: State Field Coverage: A Metric for Oracle Quality
Title（参考訳）: State Field Coverage: Oracleの品質基準
Authors: Facundo Molina, Nazareno Aguirre, Alessandra Gorla,
Abstract要約: オラクルの品質を評価するための新しい指標であるステートフィールドカバレッジを導入する。私たちのメトリクスの主な直感は、より高い状態のフィールドカバレッジを持つオラクルは、分析中のソフトウェアの欠陥を検出する傾向にあるということです。静的に計算されているため、メトリックは効率的であり、テストオラクルを改善するための直接的なガイダンスを提供する。
参考スコア（独自算出の注目度）: 45.805303746415944
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The effectiveness of testing in uncovering software defects depends not only on the characteristics of the test inputs and how thoroughly they exercise the software, but also on the quality of the oracles used to determine whether the software behaves as expected. Therefore, assessing the quality of oracles is crucial to improve the overall effectiveness of the testing process. Existing metrics have been used for this purpose, but they either fail to provide a comprehensive basis for guiding oracle improvement, or they are tailored to specific types of oracles, thus limiting their generality. In this paper, we introduce state field coverage, a novel metric for assessing oracle quality. This metric measures the proportion of an object's state, as statically defined by its class fields, that an oracle may access during test execution. The main intuition of our metric is that oracles with a higher state field coverage are more likely to detect faults in the software under analysis, as they inspect a larger portion of the object states to determine whether tests pass or not. We implement a mechanism to statically compute the state field coverage metric. Being statically computed, the metric is efficient and provides direct guidance for improving test oracles by identifying state fields that remain unexamined. We evaluate state field coverage through experiments involving 273 representation invariants and 249,027 test assertions. The results show that state field coverage is a well-suited metric for assessing oracle quality, as it strongly correlates with the oracles' fault-detection ability, measured by mutation score.
Abstract（参考訳）: ソフトウェア欠陥の発見におけるテストの有効性は、テストインプットの特性と、ソフトウェアをどの程度徹底的に動作させるかだけでなく、ソフトウェアが期待通りに振る舞うかどうかを判断するために使用されるオラクルの品質にも依存する。したがって、オークルの品質を評価することは、テストプロセスの全体的な効果を改善するために不可欠である。既存のメトリクスはこの目的のために使われてきたが、それらはオラクルの改善を導くための包括的な基盤を提供するのに失敗するか、特定の種類のオラクルに適合しているため、一般性を制限している。本稿では,オラクルの品質を評価するための新しい指標であるステートフィールドカバレッジについて紹介する。この測定基準は、テスト実行中にオラクルがアクセスできるクラスフィールドによって静的に定義された、オブジェクトの状態の比率を測定します。私たちのメトリクスの主な直感は、テストが通過するか否かを判断するためにオブジェクトの大部分が検査されるため、より高い状態のカバレッジを持つオラクルは、分析対象のソフトウェアの欠陥を検出する傾向にあるということです。我々は、状態フィールドカバレッジメトリックを静的に計算するメカニズムを実装した。静的に計算されているため、メトリックは効率的であり、検査されていない状態フィールドを特定することによって、テストのオーラクルを改善するための直接的なガイダンスを提供する。我々は273個の表現不変量と249,027個のテストアサーションを含む実験を通して状態場カバレッジを評価する。その結果, オラクルの欠陥検出能力と強く相関していることから, 状態領域のカバレッジは, オラクルの品質を評価するのに適した指標であることが示唆された。

関連論文リスト

LaajMeter: A Framework for LaaJ Evaluation [1.8583060903632522]
大規模言語モデル (LLM) は、自然言語処理タスクにおける評価器としてますます使われている。 LaaJMeterは、LaaJsの制御されたメタ評価のためのシミュレーションベースのフレームワークである。
論文参考訳（メタデータ） (2025-08-13T19:51:05Z)
Optimizing Metamorphic Testing: Prioritizing Relations Through Execution Profile Dissimilarity [2.6749261270690434]
オラクルは、実行されたテストケースのプログラムの出力が正しいかどうかを判定する。機械学習プログラムでは、そのようなオラクルはしばしば利用できないか、適用できない。 MRの優先順位付けは、障害検出の有効性を高め、テスト効率を向上させる。
論文参考訳（メタデータ） (2024-11-14T04:14:30Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。 TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。 AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文参考訳（メタデータ） (2023-11-14T10:16:05Z)
Mind the Gap: The Difference Between Coverage and Mutation Score Can Guide Testing Efforts [8.128730027609471]
テストスイートは、システムの要求/仕様と実装の間のすべての矛盾を効果的に見つけるべきです。実践者は、しばしばコードカバレッジを使って精度を近似するが、学者は、突然変異スコアは真の(奇抜な)精度を近似する方がよいと主張している。我々は、オラクルギャップと呼ばれるアイデアに基づいて、与えられたテストの規模、限界、性質を推論する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T17:05:52Z)
Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文参考訳（メタデータ） (2023-07-28T12:38:44Z)
DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。 DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。 DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文参考訳（メタデータ） (2023-07-04T01:34:41Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。