Fugu-MT 論文翻訳(概要): AI-driven Java Performance Testing: Balancing Result Quality with Testing Time

論文の概要: AI-driven Java Performance Testing: Balancing Result Quality with Testing Time

arxiv url: http://arxiv.org/abs/2408.05100v1
Date: Fri, 9 Aug 2024 14:41:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 15:27:33.618444
Title: AI-driven Java Performance Testing: Balancing Result Quality with Testing Time
Title（参考訳）: AI駆動のJavaパフォーマンステスト - 結果品質とテスト時間とのバランス
Authors: Luca Traini, Federico Di Menna, Vittorio Cortellessa,
Abstract要約: 我々は,実行時のウォームアップイテレーションを動的に停止するAIベースのフレームワークを提案し,研究する。本フレームワークは,最先端および最先端手法によるウォームアップ推定の精度を大幅に向上させる。我々の研究は、ウォームアップフェーズの終了を動的に推定するためにAIを統合することで、Javaのパフォーマンステストのコスト効率が向上することを示した。
参考スコア（独自算出の注目度）: 0.40964539027092917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Performance testing aims at uncovering efficiency issues of software systems. In order to be both effective and practical, the design of a performance test must achieve a reasonable trade-off between result quality and testing time. This becomes particularly challenging in Java context, where the software undergoes a warm-up phase of execution, due to just-in-time compilation. During this phase, performance measurements are subject to severe fluctuations, which may adversely affect quality of performance test results. However, these approaches often provide suboptimal estimates of the warm-up phase, resulting in either insufficient or excessive warm-up iterations, which may degrade result quality or increase testing time. There is still a lack of consensus on how to properly address this problem. Here, we propose and study an AI-based framework to dynamically halt warm-up iterations at runtime. Specifically, our framework leverages recent advances in AI for Time Series Classification (TSC) to predict the end of the warm-up phase during test execution. We conduct experiments by training three different TSC models on half a million of measurement segments obtained from JMH microbenchmark executions. We find that our framework significantly improves the accuracy of the warm-up estimates provided by state-of-practice and state-of-the-art methods. This higher estimation accuracy results in a net improvement in either result quality or testing time for up to +35.3% of the microbenchmarks. Our study highlights that integrating AI to dynamically estimate the end of the warm-up phase can enhance the cost-effectiveness of Java performance testing.
Abstract（参考訳）: パフォーマンステストは、ソフトウェアシステムの効率性の問題を明らかにすることを目的としている。効果的かつ実用的なものにするためには、パフォーマンステストの設計は結果の品質とテスト時間の間の合理的なトレードオフを達成しなければなりません。これは、ジャスト・イン・タイムのコンパイルのため、ソフトウェアが実行のウォームアップフェーズを行うJavaコンテキストで特に困難になる。この段階では、性能測定は厳しい変動を受け、性能試験結果の品質に悪影響を及ぼす可能性がある。しかしながら、これらのアプローチは、しばしばウォームアップフェーズの最適以下の見積もりを提供し、結果として不十分または過剰なウォームアップイテレーションが生まれ、結果の品質を低下させるか、テスト時間を増加させる可能性がある。この問題に適切に対処する方法についてはまだ合意が得られていない。本稿では,実行時のウォームアップイテレーションを動的に停止するAIベースのフレームワークを提案し,検討する。具体的には、テスト実行中のウォームアップフェーズの終了を予測するために、最近のAI for Time Series Classification(TSC)を活用している。 JMHマイクロベンチマークの実行から得られた50万の計測セグメントに対して、3つの異なるTSCモデルをトレーニングして実験を行う。その結果,我々のフレームワークは,最先端および最先端の手法によって提供されるウォームアップ推定の精度を著しく向上させることがわかった。この高い推定精度により、マイクロベンチマークの最大+35.3%の結果品質またはテスト時間が純改善される。我々の研究は、ウォームアップフェーズの終了を動的に推定するためにAIを統合することで、Javaのパフォーマンステストのコスト効率が向上することを示した。

関連論文リスト

Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [44.11609084435251]
本稿では、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する新しいアプローチであるSelf-Enhanced Test-Time Scaling(SETS)を紹介する。 SETSは、大規模言語モデルの固有の自己検証と自己補正機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統一する。
論文参考訳（メタデータ） (2025-01-31T17:03:16Z)
Dynamic Scaling of Unit Tests for Code Reward Modeling [27.349232888627558]
現在の大規模言語モデル(LLM)は、コード生成のような複雑な推論タスクの最初の試みにおいて、正確な応答を生成するのに苦労することが多い。高速かつ高品質な単体テストスケーリングを実現する軽量で効率的な単体テストジェネレータであるCodeRM-8Bを提案する。
論文参考訳（メタデータ） (2025-01-02T04:33:31Z)
Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文参考訳（メタデータ） (2024-08-22T04:23:51Z)
Impacts of floating-point non-associativity on reproducibility for HPC and deep learning applications [0.0]
浮動小数点非連想性に起因する並列プログラムにおける変数の実行は、アルゴリズムに大きな影響を与えることが知られている。並列プログラミングモデルにおける浮動小数点非連想性の統計的性質について検討する。我々は、ディープラーニングのためのGPUデプロイメントのコンテキスト内で、最近追加されたPyTorchの決定論的オプションについて検討する。
論文参考訳（メタデータ） (2024-08-09T16:07:37Z)
TSI-Bench: Benchmarking Time Series Imputation [52.27004336123575]
TSI-Benchは、ディープラーニング技術を利用した時系列計算のための総合ベンチマークスイートである。 TSI-Benchパイプラインは、実験的な設定を標準化し、計算アルゴリズムの公平な評価を可能にする。 TSI-Benchは、計算目的のために時系列予測アルゴリズムを調整するための体系的なパラダイムを革新的に提供する。
論文参考訳（メタデータ） (2024-06-18T16:07:33Z)
Quantum Algorithm Exploration using Application-Oriented Performance Benchmarks [0.0]
Application-Oriented BenchmarksのQED-Cスイートは、量子コンピュータの性能特性を測定する機能を提供する。我々は,このベンチマーク手法がより複雑なアプリケーションに適用される可能性を広げる上での課題について検討する。
論文参考訳（メタデータ） (2024-02-14T06:55:50Z)
PACE: A Program Analysis Framework for Continuous Performance Prediction [0.0]
PACEはプログラム分析フレームワークで、保留中のコード更新のパフォーマンスへの影響を継続的にフィードバックする。コード更新によって機能テストケースの実行時間をマッピングすることで,パフォーマンスのマイクロベンチマークを設計する。我々の実験は、コード性能の予測において、ニューラル表現されたコードスタイメトリーの特徴において、現在の最先端を75%上回る性能を達成した。
論文参考訳（メタデータ） (2023-12-01T20:43:34Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Benchmarking Neural Network Training Algorithms [52.890134877995195]
トレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分です。コミュニティとして、トレーニングアルゴリズムの改善を確実に特定することはできない。固定ハードウェア上で実行される複数のワークロードを使用した,新たな,競争力のある,時間と時間のベンチマークを導入する。
論文参考訳（メタデータ） (2023-06-12T15:21:02Z)
Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文参考訳（メタデータ） (2023-04-04T22:45:50Z)
DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文参考訳（メタデータ） (2023-01-30T15:54:00Z)
Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。実験結果から,EIは性能と試料効率の両立を図った。
論文参考訳（メタデータ） (2022-10-18T05:19:26Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。