論文の概要: BAPR: Bayesian amnesic piecewise-robust reinforcement learning for non-stationary continuous control
- arxiv url: http://arxiv.org/abs/2605.16170v2
- Date: Tue, 19 May 2026 13:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.45081
- Title: BAPR: Bayesian amnesic piecewise-robust reinforcement learning for non-stationary continuous control
- Title(参考訳): BAPR:非定常連続制御のためのベイジアン・アムネティック・ピースワイズ・ロバスト強化学習
- Authors: Yifan Zhang, Liang Zheng,
- Abstract要約: 現実の制御システムは、段階的な定常状態の下で動作し、状態が変化する前に、力学は長期にわたって安定している。
標準的なロバストなRL法は基本的なジレンマに直面しており、グローバルな保守的な政策は安定した期間にパフォーマンスを無駄にし、一方、局地的な適応的な政策は、体制変更が未検出であるときに破滅的な失敗を危険にさらす。
我々は,頑健なアンサンブルRLでベイズオンライン変化検出を統一するtextbfBAPRを提案する。
- 参考スコア(独自算出の注目度): 19.34848029403215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world control systems frequently operate under \emph{piecewise stationary} conditions, where dynamics remain stable for extended periods before undergoing abrupt regime changes. Standard robust RL methods face a fundamental dilemma: a globally conservative policy wastes performance during stable periods, while a locally adaptive policy risks catastrophic failure when the regime changes undetected. We propose \textbf{BAPR} (Bayesian Amnesic Piecewise-Robust SAC), which unifies Bayesian Online Change Detection (BOCD) with robust ensemble RL. The BAPR operator -- a convex combination of mode-conditional Bellman operators weighted by a frozen belief distribution -- is a $γ$-contraction. A complementary counterexample, machine-verified in Lean~4, establishes a \emph{sharp boundary}: when beliefs depend on the Q-function, the contraction factor becomes $γ+ λΔ$ (where $Δ$ is the mode reward gap), and contraction fails exactly when $γ+ λΔ\geq 1$. We derive a \emph{component-wise} formal error budget for the abstract operator -- every component machine-verified -- bounding post-switch recovery; the budget applies to the abstract mode-mixture operator and inherits to the implemented shared-critic algorithm only through the frozen-parameter design intuition. All results are formally verified with no \texttt{sorry} (1,145 lines across 3 Lean~4 files, 22 machine-verified theorems). BOCD drives an adaptive conservatism mechanism: the policy becomes maximally conservative after detected change-points and smoothly relaxes as confidence grows, with detection delay $O(\log(1/δ))$. A context-conditioning module trained via RMDM loss provides mode-aware representations from simulator-provided mode IDs at training time and requires no mode labels at deployment.
- Abstract(参考訳): 現実の制御システムは、急激な状態変化が起こる前に、長期にわたって力学が安定な状態のままである 'emph{piecewise stationary} 条件の下で頻繁に動作する。
標準的なロバストなRL法は基本的なジレンマに直面しており、グローバルな保守的な政策は安定した期間にパフォーマンスを無駄にし、一方、局地的な適応的な政策は、体制変更が未検出であるときに破滅的な失敗を危険にさらす。
本稿では,ベイズオンライン変化検出(BOCD)を頑健なアンサンブルRLで統一する「textbf{BAPR} (Bayesian Amnesic Piecewise-Robust SAC)」を提案する。
BAPR演算子は、凍った信念分布で重み付けされたモード条件ベルマン演算子の凸結合であり、$γ$-contractである。
信念がQ-函数に依存するとき、収縮係数は$γ+ λΔ$(ここで$Δ$はモード報酬ギャップ)となり、$γ+ λΔ\geq 1$ がちょうど$γ+ λΔ\geq 1$であるときに収縮は失敗する。
我々は,抽象演算子(すべてのコンポーネントが機械検証された)の形式的エラー予算を導出する。この予算は抽象モード混合演算子に適用され,凍結パラメータ設計の直観によってのみ実装された共有批判アルゴリズムに継承される。
すべての結果は、 texttt{sorry} (3つのLean~4ファイルに1,145行、機械検証された22の定理) で正式に検証される。
BOCDは適応保守機構を推進し、検出された変化点が成長するにつれてポリシーは最大保守的になり、検出遅延$O(\log(1/δ))$で、信頼性が増大するにつれて円滑に緩和する。
RMDMロスによってトレーニングされたコンテキストコンディショニングモジュールは、トレーニング時にシミュレータが提供するモードIDからモード認識表現を提供し、デプロイ時にモードラベルを必要としない。
関連論文リスト
- Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents [0.0]
自律的なAIエージェントは、完全に認証されたままで、振る舞いのドリフト、敵の適応、決定パターンのシフトによって、コードの変更なしに、安全が保たれる。
エージェントの管理は、未観測のリスクに対する限界を見積もることを減らす。
textbfRiskGateはこのフレームワークを、専用の統計推定器(KL分散、セグメント-vs-rest $z$-tests、シーケンシャルパターンマッチング)、フェイルセーフなモノトニックパイプライン、クローズドループオートパイロットでインスタンス化する。
論文 参考訳(メタデータ) (2026-04-27T16:46:15Z) - A Nonasymptotic Theory of Gain-Dependent Error Dynamics in Behavior Cloning [4.822598110892847]
位置制御ロボットの動作クローニングポリシーは、基礎となるPDコントローラの閉ループ応答を継承する。
我々は、ゲイン依存閉ループ力学により、ガウス以下の独立な動作誤差が伝播することを示す。
論文 参考訳(メタデータ) (2026-04-15T23:53:09Z) - Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees [6.310266319378214]
実世界の意思決定システムは、状態遷移がエージェントの行動に依存する環境で機能する。
Standard Constrained MDP の定式化は、エージェントが状態進化の唯一のドライバであると仮定する。
エージェントポリシーと敵ポリシーの両方に対する楽観性を維持するモデルベースアルゴリズムであるtextbfRobust Hallucinated Constrained Upper-Confidence RL (textttRHC-UCRL) を提案する。
論文 参考訳(メタデータ) (2026-04-15T04:53:29Z) - Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Soft-Label Governance for Distributional Safety in Multi-Agent Systems [4.726777092009554]
マルチエージェントAIシステムは、単独のエージェントが単独で生成しない突発的なリスクを示す。
本稿では,バイナリグッド/バッドラベルをemphsoft確率ラベルに置き換えるシミュレーションフレームワークSWARMを紹介する。
5シードのレプリケーションを持つ7つのシナリオでは、厳格なガバナンスは安全性を向上することなく、福祉を40%以上削減する。
論文 参考訳(メタデータ) (2026-03-19T00:56:09Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。