論文の概要: Adaptive Reinforcement Learning for Dynamic Configuration Allocation in Pre-Production Testing
- arxiv url: http://arxiv.org/abs/2510.05147v1
- Date: Thu, 02 Oct 2025 05:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.854307
- Title: Adaptive Reinforcement Learning for Dynamic Configuration Allocation in Pre-Production Testing
- Title(参考訳): プレプロダクションテストにおける動的構成割当のための適応強化学習
- Authors: Yu Zhu,
- Abstract要約: 本稿では, コンフィグレーション割り当てを逐次決定問題として再放送する, 新たな強化学習フレームワークを提案する。
提案手法は,Q-ラーニングをシミュレーション結果とリアルタイムフィードバックを融合したハイブリッド報酬設計と統合する最初の方法である。
- 参考スコア(独自算出の注目度): 4.370892281528124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring reliability in modern software systems requires rigorous pre-production testing across highly heterogeneous and evolving environments. Because exhaustive evaluation is infeasible, practitioners must decide how to allocate limited testing resources across configurations where failure probabilities may drift over time. Existing combinatorial optimization approaches are static, ad hoc, and poorly suited to such non-stationary settings. We introduce a novel reinforcement learning (RL) framework that recasts configuration allocation as a sequential decision-making problem. Our method is the first to integrate Q-learning with a hybrid reward design that fuses simulated outcomes and real-time feedback, enabling both sample efficiency and robustness. In addition, we develop an adaptive online-offline training scheme that allows the agent to quickly track abrupt probability shifts while maintaining long-run stability. Extensive simulation studies demonstrate that our approach consistently outperforms static and optimization-based baselines, approaching oracle performance. This work establishes RL as a powerful new paradigm for adaptive configuration allocation, advancing beyond traditional methods and offering broad applicability to dynamic testing and resource scheduling domains.
- Abstract(参考訳): 現代のソフトウェアシステムの信頼性を保証するには、高度に異質で進化する環境にまたがる厳密な事前運用テストが必要である。
徹底的な評価は不可能であるため、フェール確率が時間の経過とともにドリフトする可能性のある構成に対して、限られたテストリソースを割り当てる方法を決定する必要がある。
既存の組合せ最適化アプローチは静的でアドホックであり、そのような非定常的な設定には適していない。
本稿では,コンフィグレーション割り当てを逐次決定問題として再放送する新しい強化学習(RL)フレームワークを提案する。
提案手法は,Q-ラーニングとハイブリッドな報酬設計を統合し,シミュレーション結果とリアルタイムフィードバックを融合し,サンプル効率と堅牢性を両立させる手法である。
さらに、エージェントが長時間の安定性を維持しながら、突然の確率変化を素早く追跡できる適応型オンラインオフライントレーニング手法を開発した。
大規模なシミュレーション研究により、我々のアプローチは静的および最適化ベースラインを一貫して上回り、オラクル性能に近づいた。
この研究は、適応的なコンフィギュレーションアロケーションのための強力な新しいパラダイムとしてRLを確立し、従来のメソッドを超えて、動的テストとリソーススケジューリングドメインに広範な適用性を提供する。
関連論文リスト
- Flexible Locomotion Learning with Diffusion Model Predictive Control [46.432397190673505]
本稿では,学習した生成拡散モデルを計画に先立って近似力学として活用する拡散MPCを提案する。
我々の設計では、テスト時適応性が強く、プランナーは、再訓練することなく、新しい報酬仕様に調整できる。
我々はDiffusion-MPCを実世界で検証し、強い移動と柔軟な適応を示す。
論文 参考訳(メタデータ) (2025-10-05T14:51:13Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization [0.0]
本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。
我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。
包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
論文 参考訳(メタデータ) (2025-07-24T20:32:47Z) - FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。
本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。
提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-07-25T20:02:57Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Conformalized Online Learning: Online Calibration Without a Holdout Set [10.420394952839242]
オンライン環境では、有効なカバレッジ保証を備えた不確実性セットを構築するためのフレームワークを開発する。
複数出力回帰問題に対して有効な区間を構築する方法を示す。
論文 参考訳(メタデータ) (2022-05-18T17:41:37Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。