Fugu-MT 論文翻訳(概要): Reinforcement Learning for Dynamic Workflow Optimization in CI/CD Pipelines

論文の概要: Reinforcement Learning for Dynamic Workflow Optimization in CI/CD Pipelines

arxiv url: http://arxiv.org/abs/2601.11647v1
Date: Thu, 15 Jan 2026 05:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.247844
Title: Reinforcement Learning for Dynamic Workflow Optimization in CI/CD Pipelines
Title（参考訳）: CI/CDパイプラインにおける動的ワークフロー最適化のための強化学習
Authors: Aniket Abhishek Soni, Milan Parikh, Rashi Nimesh Kumar Dhenia, Jubin Abhishek Soni, Ayush Raj Jha, Sneja Mitinbhai Shah,
Abstract要約: 本稿では,CI/CDパイプラインを動的に最適化するための強化学習(RL)アプローチを提案する。パイプラインはMarkov Decision Processとしてモデル化され、RLエージェントがフル、部分的、テスト実行なしなどのランタイム決定を行うようにトレーニングされている。実験の結果,RL最適化パイプラインはスループットが最大30%向上し,テスト実行時間が約25%削減された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continuous Integration and Continuous Deployment (CI/CD) pipelines are central to modern software delivery, yet their static workflows often introduce inefficiencies as systems scale. This paper proposes a reinforcement learning (RL) based approach to dynamically optimize CI/CD pipeline workflows. The pipeline is modeled as a Markov Decision Process, and an RL agent is trained to make runtime decisions such as selecting full, partial, or no test execution in order to maximize throughput while minimizing testing overhead. A configurable CI/CD simulation environment is developed to evaluate the approach across build, test, and deploy stages. Experimental results show that the RL optimized pipeline achieves up to a 30 percent improvement in throughput and approximately a 25 percent reduction in test execution time compared to static baselines, while maintaining a defect miss rate below 5 percent. The agent learns to selectively skip or abbreviate tests for low risk commits, accelerating feedback cycles without significantly increasing failure risk. These results demonstrate the potential of reinforcement learning to enable adaptive and intelligent DevOps workflows, providing a practical pathway toward more efficient, resilient, and sustainable CI/CD automation.
Abstract（参考訳）: 継続的インテグレーションと継続的デプロイメント(CI/CD)パイプラインは現代のソフトウェアデリバリの中心であるが、静的ワークフローはシステムスケールとして非効率をもたらすことが多い。本稿では、CI/CDパイプラインワークフローを動的に最適化する強化学習(RL)アプローチを提案する。パイプラインはMarkov Decision Processとしてモデル化され、RLエージェントは、テストオーバーヘッドを最小限に抑えながらスループットを最大化するために、完全な、部分的、テスト実行なしなどのランタイム決定をトレーニングされる。ビルド、テスト、デプロイステージにわたるアプローチを評価するために、構成可能なCI/CDシミュレーション環境が開発されている。実験の結果、RL最適化パイプラインは、スループットを最大30%改善し、静的ベースラインと比較してテスト実行時間を約25%削減し、欠陥ミス率を5%以下に維持していることがわかった。エージェントは、低いリスクコミットに対するテストを選択的にスキップまたは省略することを学び、エラーリスクを大幅に増大させることなく、フィードバックサイクルを加速する。これらの結果は、適応的でインテリジェントなDevOpsワークフローを実現するための強化学習の可能性を示し、より効率的でレジリエントで持続可能なCI/CD自動化への実践的な経路を提供する。

関連論文リスト

KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。 KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文参考訳（メタデータ） (2025-07-11T04:07:10Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文参考訳（メタデータ） (2025-01-15T09:04:19Z)
FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。条件設定では、太陽予測において優れた性能を達成している。
論文参考訳（メタデータ） (2024-11-12T03:03:23Z)
Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。並列効率を約49%から約78%に向上させる。
論文参考訳（メタデータ） (2024-02-18T09:07:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。