論文の概要: Reinforcement Learning for Dynamic Workflow Optimization in CI/CD Pipelines
- arxiv url: http://arxiv.org/abs/2601.11647v1
- Date: Thu, 15 Jan 2026 05:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.247844
- Title: Reinforcement Learning for Dynamic Workflow Optimization in CI/CD Pipelines
- Title(参考訳): CI/CDパイプラインにおける動的ワークフロー最適化のための強化学習
- Authors: Aniket Abhishek Soni, Milan Parikh, Rashi Nimesh Kumar Dhenia, Jubin Abhishek Soni, Ayush Raj Jha, Sneja Mitinbhai Shah,
- Abstract要約: 本稿では,CI/CDパイプラインを動的に最適化するための強化学習(RL)アプローチを提案する。
パイプラインはMarkov Decision Processとしてモデル化され、RLエージェントがフル、部分的、テスト実行なしなどのランタイム決定を行うようにトレーニングされている。
実験の結果,RL最適化パイプラインはスループットが最大30%向上し,テスト実行時間が約25%削減された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous Integration and Continuous Deployment (CI/CD) pipelines are central to modern software delivery, yet their static workflows often introduce inefficiencies as systems scale. This paper proposes a reinforcement learning (RL) based approach to dynamically optimize CI/CD pipeline workflows. The pipeline is modeled as a Markov Decision Process, and an RL agent is trained to make runtime decisions such as selecting full, partial, or no test execution in order to maximize throughput while minimizing testing overhead. A configurable CI/CD simulation environment is developed to evaluate the approach across build, test, and deploy stages. Experimental results show that the RL optimized pipeline achieves up to a 30 percent improvement in throughput and approximately a 25 percent reduction in test execution time compared to static baselines, while maintaining a defect miss rate below 5 percent. The agent learns to selectively skip or abbreviate tests for low risk commits, accelerating feedback cycles without significantly increasing failure risk. These results demonstrate the potential of reinforcement learning to enable adaptive and intelligent DevOps workflows, providing a practical pathway toward more efficient, resilient, and sustainable CI/CD automation.
- Abstract(参考訳): 継続的インテグレーションと継続的デプロイメント(CI/CD)パイプラインは現代のソフトウェアデリバリの中心であるが、静的ワークフローはシステムスケールとして非効率をもたらすことが多い。
本稿では、CI/CDパイプラインワークフローを動的に最適化する強化学習(RL)アプローチを提案する。
パイプラインはMarkov Decision Processとしてモデル化され、RLエージェントは、テストオーバーヘッドを最小限に抑えながらスループットを最大化するために、完全な、部分的、テスト実行なしなどのランタイム決定をトレーニングされる。
ビルド、テスト、デプロイステージにわたるアプローチを評価するために、構成可能なCI/CDシミュレーション環境が開発されている。
実験の結果、RL最適化パイプラインは、スループットを最大30%改善し、静的ベースラインと比較してテスト実行時間を約25%削減し、欠陥ミス率を5%以下に維持していることがわかった。
エージェントは、低いリスクコミットに対するテストを選択的にスキップまたは省略することを学び、エラーリスクを大幅に増大させることなく、フィードバックサイクルを加速する。
これらの結果は、適応的でインテリジェントなDevOpsワークフローを実現するための強化学習の可能性を示し、より効率的でレジリエントで持続可能なCI/CD自動化への実践的な経路を提供する。
関連論文リスト
- Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving [22.3805998088591]
DACER-Fは、自律運転システムにおける生成ポリシーのフローマッチングアルゴリズムである。
ヒューマノイド・スタンド・タスクで775.8のスコアを獲得し、以前の手法を上回ります。
論文 参考訳(メタデータ) (2026-03-03T05:35:53Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - SCPL: Enhancing Neural Network Training Throughput with Decoupled Local Losses and Model Parallelism [2.4349098308669594]
本稿では、BPを分離し、長い勾配流を複数の短絡に変換することでこの問題に対処する新しい学習手法である Supervised Contrastive Parallel Learning (SCPL) を提案する。
BP, Early Exit, GPipe, Associated Learning (AL)と比較して, バックプロパゲーションをデカップリングするための最先端手法である。
SCPLは、高度な情報システムをよりコスト効率よく、よりアジリティで開発し、展開するための実践的な経路を提供する。
論文 参考訳(メタデータ) (2026-01-20T09:19:30Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - AutoLoop: Fast Visual SLAM Fine-tuning through Agentic Curriculum Learning [1.282543877006303]
本稿では、自動カリキュラム学習と視覚SLAMシステムのための効率的な微調整を組み合わせた新しいアプローチであるAutoLoopを提案する。
本手法では, DDPG (Deep Deterministic Policy Gradient) エージェントを用いて, トレーニング中のループ閉鎖重量を動的に調整する。
TartanAirでトレーニングを行い、KITTI、EuRoC、ICL-NUIM、TUM RGB-Dを含む複数のベンチマークで検証した結果、AutoLoopは同等または優れたパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2025-01-15T21:22:09Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。
本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。
並列効率を約49%から約78%に向上させる。
論文 参考訳(メタデータ) (2024-02-18T09:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。