論文の概要: Risk-Aware Batch Testing for Performance Regression Detection
- arxiv url: http://arxiv.org/abs/2604.00222v1
- Date: Tue, 31 Mar 2026 20:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.713405
- Title: Risk-Aware Batch Testing for Performance Regression Detection
- Title(参考訳): 性能回帰検出のためのリスク対応バッチテスト
- Authors: Ali Sayedsalehi, Peter C. Rigby, Gregory Mierzwinski,
- Abstract要約: 私たちはAutolandと一致した人間確認された回帰のプロダクションベースデータセットを構築します。
コミットレベルのパフォーマンスリスクを見積もるために、ModernBERT、CodeBERT、LLaMA3.1を微調整します。
- 参考スコア(独自算出の注目度): 1.0705399532413615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance regression testing is essential in large-scale continuous-integration (CI) systems, yet executing full performance suites for every commit is prohibitively expensive. Prior work on performance regression prediction and batch testing has shown independent benefits, but each faces practical limitations: predictive models are rarely integrated into CI decision-making, and conventional batching strategies ignore commit-level heterogeneity. We unify these strands by introducing a risk-aware framework that integrates machine-learned commit risk with adaptive batching. Using Mozilla Firefox as a case study, we construct a production-derived dataset of human-confirmed regressions aligned chronologically with Autoland, and fine-tune ModernBERT, CodeBERT, and LLaMA-3.1 variants to estimate commit-level performance regression risk, achieving up to 0.694 ROC-AUC with CodeBERT. The risk scores drive a family of risk-aware batching strategies, including Risk-Aged Priority Batching and Risk-Adaptive Stream Batching, evaluated through realistic CI simulations. Across thousands of historical Firefox commits, our best overall configuration, Risk-Aged Priority Batching with linear aggregation (RAPB-la), yields a Pareto improvement over Mozilla's production-inspired baseline. RAPB-la reduces total test executions by 32.4%, decreases mean feedback time by 3.8%, maintains mean time-to-culprit at approximately the baseline level, reduces maximum time-to-culprit by 26.2%, and corresponds to an estimated annual infrastructure cost savings of approximately $491K under our cost model. These results demonstrate that risk-aware batch testing can reduce CI resource consumption while improving diagnostic timeliness. To support reproducibility and future research, we release a complete replication package containing all datasets, fine-tuning pipelines, and implementations of our batching algorithms.
- Abstract(参考訳): 大規模な継続的統合(CI)システムではパフォーマンスレグレッションテストが不可欠だが、コミット毎に完全なパフォーマンススイートを実行するのは非常に高価だ。
予測モデルはCI意思決定にはほとんど統合されず、従来のバッチ戦略はコミットレベルの不均一性を無視している。
マシン学習のコミットリスクと適応的なバッチ処理を統合したリスク認識フレームワークを導入することで、これらのストランドを統一する。
ケーススタディとしてMozilla Firefoxを用いて、Autolandと時系列的に一致した人間確認レグレッションのプロダクションベースデータセットを構築し、CodeBERTで最大0.694LOC-AUCを達成し、コミットレベルのパフォーマンスレグレッションリスクを見積もる。
リスクスコアは、リスク対応優先度バッチやリスク適応ストリームバッチなどのリスク対応バッチ戦略を、現実的なCIシミュレーションを通じて評価するものだ。
何千もの歴史的なFirefoxコミット、最高の構成、線形アグリゲーション(RAPB-la)によるリスクAged Priority Batchingは、MozillaのプロダクションインスパイアされたベースラインよりもParetoの改善をもたらします。
RAPB-laは総テスト実行量を32.4%削減し、平均フィードバック時間を3.8%削減し、平均タイム・トゥ・カプラートをほぼベースラインレベルで維持し、最大タイム・トゥ・カプラートを26.2%削減し、当社のコストモデルで推定されるインフラコストを約491K削減する。
これらの結果は、リスクを意識したバッチテストは、診断タイムラインを改善しながら、CIリソースの消費を減らすことができることを示している。
再現性と今後の研究をサポートするため、すべてのデータセット、微調整パイプライン、バッチアルゴリズムの実装を含む完全な複製パッケージをリリースする。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk [0.0]
本稿では、アンサンブル機械学習を用いたERP財務リスク検出のための再構成実験フレームワークを提案する。
リスク定義はハイブリッドで、調達のコンプライアンス異常と取引詐欺の両方をカバーする。
ERP-RiskBenchと呼ばれる複合ベンチマークは、公開調達イベントログ、ラベル付き不正データ、新しい合成ERPデータセットから組み立てられる。
論文 参考訳(メタデータ) (2026-03-03T04:41:26Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling [50.872910438715486]
大規模言語モデル(LLM)は、通常、単一ショットまたは低予算の逆のプロンプトの下で安全性を評価する。
我々は,Best-of-Nサンプリングの下でのジェイルブレイク脆弱性をモデル化するための,スケーリング対応のリスク推定手法であるSABERを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:54:35Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - Bayesian Modeling for Uncertainty Management in Financial Risk Forecasting and Compliance [0.0]
我々は,市場ボラティリティ予測,不正検出,コンプライアンス監視におけるリスクの取り扱いを継続的に促進する統合的アプローチを開発する。
我々は,2000年から2019年までのトレーニング期間,2020年から2024年までのアウト・オブ・サンプルテスト期間を用いて,毎日のS&P500リターンにおける95%バリュー・アット・リスク(VaR)予測の性能を評価した。
提案した割引係数DLMモデルは,クラスタ化違反の証拠とともに,わずかにリベラルなVaR推定を導出する。
論文 参考訳(メタデータ) (2025-12-06T23:00:19Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。