論文の概要: Self-Organizing Dual-Buffer Adaptive Clustering Experience Replay (SODASER) for Safe Reinforcement Learning in Optimal Control
- arxiv url: http://arxiv.org/abs/2601.06540v1
- Date: Sat, 10 Jan 2026 11:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.311497
- Title: Self-Organizing Dual-Buffer Adaptive Clustering Experience Replay (SODASER) for Safe Reinforcement Learning in Optimal Control
- Title(参考訳): 最適制御における安全強化学習のための自己組織型デュアルバッファ適応クラスタリング体験再生(SODASER)
- Authors: Roya Khalili Amirabadi, Mohsen Jalaeian Farimani, Omid Solaymani Fard,
- Abstract要約: 本稿では,SODACER(Self-Organizing Dual-Replay Adaptive Clustering Experience)という新たな強化学習フレームワークを提案する。
SODACERは非線形システムの安全かつスケーラブルな最適制御を実現するように設計されている。
提案手法は、複数の制御入力と安全性制約を持つ非線形ヒトパピローマウイルス(HPV)トランスミッションモデルで検証される。
- 参考スコア(独自算出の注目度): 2.8037951156321372
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes a novel reinforcement learning framework, named Self-Organizing Dual-buffer Adaptive Clustering Experience Replay (SODACER), designed to achieve safe and scalable optimal control of nonlinear systems. The proposed SODACER mechanism consisting of a Fast-Buffer for rapid adaptation to recent experiences and a Slow-Buffer equipped with a self-organizing adaptive clustering mechanism to maintain diverse and non-redundant historical experiences. The adaptive clustering mechanism dynamically prunes redundant samples, optimizing memory efficiency while retaining critical environmental patterns. The approach integrates SODASER with Control Barrier Functions (CBFs) to guarantee safety by enforcing state and input constraints throughout the learning process. To enhance convergence and stability, the framework is combined with the Sophia optimizer, enabling adaptive second-order gradient updates. The proposed SODACER-Sophia's architecture ensures reliable, effective, and robust learning in dynamic, safety-critical environments, offering a generalizable solution for applications in robotics, healthcare, and large-scale system optimization. The proposed approach is validated on a nonlinear Human Papillomavirus (HPV) transmission model with multiple control inputs and safety constraints. Comparative evaluations against random and clustering-based experience replay methods demonstrate that SODACER achieves faster convergence, improved sample efficiency, and a superior bias-variance trade-off, while maintaining safe system trajectories, validated via the Friedman test.
- Abstract(参考訳): 本稿では,非線形システムの安全かつスケーラブルな最適制御を実現するために,SODACER(Self-Organizing Dual-buffer Adaptive Clustering Experience Replay)という新たな強化学習フレームワークを提案する。
提案するSODACER機構は,最近の経験に迅速に適応するFast-Bufferと,多様かつ非冗長な歴史的経験を維持するための自己組織型適応クラスタリング機構を備えたSlow-Bufferで構成されている。
適応クラスタリング機構は冗長なサンプルを動的に生成し、重要な環境パターンを維持しながらメモリ効率を最適化する。
このアプローチは、制御バリア関数(CBF)とSODASERを統合して、学習プロセス全体を通して状態と入力の制約を強制することによって安全性を保証する。
収束と安定性を高めるため、フレームワークはソフィアオプティマイザと組み合わせられ、適応的な2階勾配更新が可能である。
提案されたSODACER-Sophiaのアーキテクチャは、動的で安全でクリティカルな環境での信頼性、有効、堅牢な学習を保証し、ロボット工学、医療、大規模システム最適化の応用のための一般化可能なソリューションを提供する。
提案手法は、複数の制御入力と安全性制約を持つ非線形ヒトパピローマウイルス(HPV)トランスミッションモデルで検証される。
ランダム・クラスタリング・エクスペリエンス・リプレイ法との比較評価により,SODACERはより高速な収束,サンプル効率の向上,バイアス分散トレードオフの改善を実現し,Friedmanテストによる安全なシステムトラジェクトリの維持を図っている。
関連論文リスト
- Adaptive Reinforcement Learning for Dynamic Configuration Allocation in Pre-Production Testing [4.370892281528124]
本稿では, コンフィグレーション割り当てを逐次決定問題として再放送する, 新たな強化学習フレームワークを提案する。
提案手法は,Q-ラーニングをシミュレーション結果とリアルタイムフィードバックを融合したハイブリッド報酬設計と統合する最初の方法である。
論文 参考訳(メタデータ) (2025-10-02T05:12:28Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Optimal Parameter Adaptation for Safety-Critical Control via Safe Barrier Bayesian Optimization [27.36423499121502]
制御バリア関数 (CBF) 法は, 制御性能向上に新たな課題を提起する。
安全制御性能を最適化するために,CBF法とベイズ最適化(BO)を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-25T04:56:17Z) - Learning-Enhanced Safeguard Control for High-Relative-Degree Systems: Robust Optimization under Disturbances and Faults [6.535600892275023]
本稿では,強化学習に基づく最適制御問題における安全性保証によるシステム性能の向上を目的とする。
安全性の勾配と性能の勾配の関係を定量化するために,勾配類似性の概念を提案する。
安全性を保証するため、安全なRLフレームワークに勾配操作と適応機構を導入している。
論文 参考訳(メタデータ) (2025-01-26T03:03:02Z) - FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。
本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。
提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-07-25T20:02:57Z) - Enhancing Security in Federated Learning through Adaptive
Consensus-Based Model Update Validation [2.28438857884398]
本稿では,ラベルフリップ攻撃に対して,FL(Federated Learning)システムを構築するための高度なアプローチを提案する。
本稿では,適応的しきい値設定機構と統合されたコンセンサスに基づく検証プロセスを提案する。
以上の結果から,FLシステムのレジリエンスを高め,ラベルフリップ攻撃の顕著な緩和効果が示唆された。
論文 参考訳(メタデータ) (2024-03-05T20:54:56Z) - A Policy Optimization Method Towards Optimal-time Stability [15.722871779526526]
サンプリングに基づくリアプノフ安定性を取り入れた政策最適化手法を提案する。
我々のアプローチは、最適時間内にシステムの状態が平衡点に達することを可能にする。
論文 参考訳(メタデータ) (2023-01-02T04:19:56Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。