論文の概要: $μ$OpTime: Statically Reducing the Execution Time of Microbenchmark Suites Using Stability Metrics
- arxiv url: http://arxiv.org/abs/2501.12878v1
- Date: Wed, 22 Jan 2025 13:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:22.286878
- Title: $μ$OpTime: Statically Reducing the Execution Time of Microbenchmark Suites Using Stability Metrics
- Title(参考訳): $μ$OpTime: 安定度を用いたマイクロベンチマークスイートの実行時間を統計的に削減する
- Authors: Nils Japke, Martin Grambow, Christoph Laaber, David Bermbach,
- Abstract要約: $mu$OpTimeは、microbenchmarkスイートの実行時間を短縮するための静的なアプローチである。
CI/CDパイプラインのパフォーマンスレグレッションを確実に検出するために、$mu$OpTimeを使用することができる。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License:
- Abstract: Performance regressions have a tremendous impact on the quality of software. One way to catch regressions before they reach production is executing performance tests before deployment, e.g., using microbenchmarks, which measure performance at subroutine level. In projects with many microbenchmarks, this may take several hours due to repeated execution to get accurate results, disqualifying them from frequent use in CI/CD pipelines. We propose $\mu$OpTime, a static approach to reduce the execution time of microbenchmark suites by configuring the number of repetitions for each microbenchmark. Based on the results of a full, previous microbenchmark suite run, $\mu$OpTime determines the minimal number of (measurement) repetitions with statistical stability metrics that still lead to accurate results. We evaluate $\mu$OpTime with an experimental study on 14 open-source projects written in two programming languages and five stability metrics. Our results show that (i) $\mu$OpTime reduces the total suite execution time (measurement phase) by up to 95.83% (Go) and 94.17% (Java), (ii) the choice of stability metric depends on the project and programming language, (iii) microbenchmark warmup phases have to be considered for Java projects (potentially leading to higher reductions), and (iv) $\mu$OpTime can be used to reliably detect performance regressions in CI/CD pipelines.
- Abstract(参考訳): パフォーマンスのレグレッションは、ソフトウェアの品質に大きな影響を与えます。
運用前にレグレッションをキャッチする1つの方法は、たとえば、サブルーチンレベルのパフォーマンスを測定するマイクロベンチマークを使用して、デプロイ前にパフォーマンステストを実行することだ。
多くのマイクロベンチマークを持つプロジェクトでは、正確な結果を得るために繰り返し実行されるため、数時間かかる可能性がある。
我々はマイクロベンチマークスイートの実行時間を削減するための静的アプローチである$\mu$OpTimeを提案する。
以前のマイクロベンチマークスイートの完全な実行結果に基づいて、$\mu$OpTimeは、正確な結果につながる統計安定性指標による最小限の(測定)反復数を決定する。
2つのプログラミング言語と5つの安定性メトリクスで書かれた14のオープンソースプロジェクトの実験研究により、$\mu$OpTimeを評価した。
私たちの結果は
(i)$\mu$OpTimeは、スイートの実行時間(測定フェーズ)を95.83%(Go)と94.17%(Java)に削減する。
(二)安定性指標の選択は、プロジェクトとプログラミング言語に依存します。
三 マイクロベンチマークウォームアップフェーズは、Javaプロジェクトで考慮しなければなりません(潜在的に、より高い削減につながる)。
(iv) $\mu$OpTime はCI/CDパイプラインのパフォーマンスレグレッションを確実に検出するために使用することができる。
関連論文リスト
- AI-driven Java Performance Testing: Balancing Result Quality with Testing Time [0.40964539027092917]
我々は,実行時のウォームアップイテレーションを動的に停止するAIベースのフレームワークを提案し,研究する。
本フレームワークは,最先端および最先端手法によるウォームアップ推定の精度を大幅に向上させる。
我々の研究は、ウォームアップフェーズの終了を動的に推定するためにAIを統合することで、Javaのパフォーマンステストのコスト効率が向上することを示した。
論文 参考訳(メタデータ) (2024-08-09T14:41:32Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - Efficient Lifelong Model Evaluation in an Era of Rapid Progress [40.57576540258748]
S&S(Sort & Search, S&S)は, 動的プログラミングアルゴリズムを利用して, テストサンプルのランク付けとサブセレクションを行う。
S&Sは高い効率の近似精度測定を実現し、計算コストを1つのA100 GPU上で180GPU日から5GPU時間に削減し、近似誤差が低く、メモリコストは100MBである。
我々の研究は、現在の精度予測指標の問題を強調し、サンプルレベルの評価指標に移行する必要性を示唆している。
論文 参考訳(メタデータ) (2024-02-29T18:58:26Z) - Taming Timeout Flakiness: An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストは回帰テストに悪影響を及ぼします。
テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。
テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文 参考訳(メタデータ) (2024-02-07T20:01:41Z) - PACE: A Program Analysis Framework for Continuous Performance Prediction [0.0]
PACEはプログラム分析フレームワークで、保留中のコード更新のパフォーマンスへの影響を継続的にフィードバックする。
コード更新によって機能テストケースの実行時間をマッピングすることで,パフォーマンスのマイクロベンチマークを設計する。
我々の実験は、コード性能の予測において、ニューラル表現されたコードスタイメトリーの特徴において、現在の最先端を75%上回る性能を達成した。
論文 参考訳(メタデータ) (2023-12-01T20:43:34Z) - Accelerating Continuous Integration with Parallel Batch Testing [0.0]
大規模な継続的インテグレーションはソフトウェア開発に不可欠です。
テスト選択や優先順位付けなどの様々なテクニックは、コスト削減を目的としている。
本研究では,テストマシン数を調整することで並列化の効果を評価する。
我々はDynamic TestCaseを提案し、新しいビルドが完全なテスト実行の前にバッチに結合できるようにする。
論文 参考訳(メタデータ) (2023-08-25T01:09:31Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。