論文の概要: Towards an Optimized Benchmarking Platform for CI/CD Pipelines
- arxiv url: http://arxiv.org/abs/2510.18640v1
- Date: Tue, 21 Oct 2025 13:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.636364
- Title: Towards an Optimized Benchmarking Platform for CI/CD Pipelines
- Title(参考訳): CI/CDパイプラインのための最適化ベンチマークプラットフォームを目指して
- Authors: Nils Japke, Sebastian Koch, Helmut Lukasczyk, David Bermbach,
- Abstract要約: パフォーマンスのレグレッションを特定し、サービスレベルの合意を維持するためには、ベンチマークが不可欠です。
パフォーマンスベンチマークはリソース集約的で時間を要する。
現在、これらの最適化を現実の継続的インテグレーション/継続的デプロイメントパイプラインにシームレスに統合する実用的なシステムは存在しない。
- 参考スコア(独自算出の注目度): 1.3999481573773072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance regressions in large-scale software systems can lead to substantial resource inefficiencies, making their early detection critical. Frequent benchmarking is essential for identifying these regressions and maintaining service-level agreements (SLAs). Performance benchmarks, however, are resource-intensive and time-consuming, which is a major challenge for integration into Continuous Integration / Continuous Deployment (CI/CD) pipelines. Although numerous benchmark optimization techniques have been proposed to accelerate benchmark execution, there is currently no practical system that integrates these optimizations seamlessly into real-world CI/CD pipelines. In this vision paper, we argue that the field of benchmark optimization remains under-explored in key areas that hinder its broader adoption. We identify three central challenges to enabling frequent and efficient benchmarking: (a) the composability of benchmark optimization strategies, (b) automated evaluation of benchmarking results, and (c) the usability and complexity of applying these strategies as part of CI/CD systems in practice. We also introduce a conceptual cloud-based benchmarking framework handling these challenges transparently. By presenting these open problems, we aim to stimulate research toward making performance regression detection in CI/CD systems more practical and effective.
- Abstract(参考訳): 大規模ソフトウェアシステムのパフォーマンスの回帰は、かなりのリソースの非効率をもたらす可能性があるため、早期発見が重要となる。
これらの回帰を識別し、サービスレベルの合意(SLA)を維持するためには、頻繁なベンチマークが不可欠です。
しかし、パフォーマンスベンチマークはリソース集約的で時間を要するため、継続的インテグレーション/継続的デプロイメント(CI/CD)パイプラインとの統合には大きな課題があります。
ベンチマーク実行を高速化するために多くのベンチマーク最適化技術が提案されているが、これらの最適化を現実のCI/CDパイプラインにシームレスに統合する実用的なシステムは今のところ存在しない。
このビジョンペーパーでは、ベンチマーク最適化の分野は、広く採用されるのを妨げる重要な領域において、まだ探索されていないと論じている。
頻繁で効率的なベンチマークを可能にするための3つの中心的な課題を特定します。
a) ベンチマーク最適化戦略の構成可能性
(b)ベンチマーク結果の自動評価、及び
c) CI/CDシステムの一部としてこれらの戦略を適用することのユーザビリティと複雑さ。
また、これらの課題を透過的に処理する概念的なクラウドベースのベンチマークフレームワークも導入しています。
このようなオープンな問題を提示することにより,CI/CDシステムにおける性能回帰検出をより実用的で効果的に行う研究の促進を目指す。
関連論文リスト
- CausalCompass: Evaluating the Robustness of Time-Series Causal Discovery in Misspecified Scenarios [17.11442807888366]
Causalは、時系列因果発見法の堅牢性を評価するために設計されたベンチマークスイートである。
我々は8つの仮定違反シナリオにまたがる代表的なTSCDアルゴリズムの広範なベンチマークを行う。
様々なシナリオで優れた全体的なパフォーマンスを示す方法は、ほとんどディープラーニングベースのアプローチである。
論文 参考訳(メタデータ) (2026-02-08T11:27:06Z) - Benchmarking that Matters: Rethinking Benchmarking for Practical Impact [2.952553461344481]
本稿では,実世界のベンチマーク,実践者が利用できる機能空間,コミュニティが維持するパフォーマンスデータベースを中心にしたビジョンを提案する。
現実の洞察とともに進化し、科学的理解と産業的利用の両方をサポートする生きたベンチマークエコシステム。
論文 参考訳(メタデータ) (2025-11-15T15:42:15Z) - A Benchmark Suite for Multi-Objective Optimization in Battery Thermal Management System Design [0.0]
本研究では, 電池熱管理システム(BTMS)の設計における多目的最適化のためのベンチマークスイートを開発し, 提案する。
このベンチマークスイートの主な目標は、進化アルゴリズムと最適化手法の実用的で関連するテスト基盤を提供することである。
論文 参考訳(メタデータ) (2025-10-29T06:48:22Z) - WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。
我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。
本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文 参考訳(メタデータ) (2025-10-28T17:51:42Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - XQC: Well-conditioned Optimization Accelerates Deep Reinforcement Learning [26.063477716451512]
我々は,ソフトアクター・クリティックをベースとした,よく動機付けられた,サンプル効率の高いディープアクター・クリティックアルゴリズムであるXQCを紹介する。
55のプロプリセプションと15の視覚に基づく連続制御タスクにまたがる最先端のサンプル効率を実現する。
論文 参考訳(メタデータ) (2025-09-29T17:58:53Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - DeLag: Using Multi-Objective Optimization to Enhance the Detection of
Latency Degradation Patterns in Service-based Systems [0.76146285961466]
DeLagは,サービスベースシステムの性能問題を診断するための,新しい自動検索ベースのアプローチである。
DeLagは、精度、リコール、異種性を最適化しながら、複数のレイテンシパターンを同時に検索する。
論文 参考訳(メタデータ) (2021-10-21T13:59:32Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。