Fugu-MT 論文翻訳(概要): A comment on stabilizing reinforcement learning

論文の概要: A comment on stabilizing reinforcement learning

arxiv url: http://arxiv.org/abs/2111.12316v1
Date: Wed, 24 Nov 2021 07:58:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-25 16:09:01.920723
Title: A comment on stabilizing reinforcement learning
Title（参考訳）: 強化学習の安定化に関するコメント
Authors: Pavel Osinenko, Georgiy Malaniya, Grigory Yaremenko, Ilya Osokin
Abstract要約: 我々は、Vamvoudakisらは、一般的な政策の下でハミルトニアンに誤った仮定をしたと論じる。動作ポリシーホールドに一定の条件を課した連続重時間環境下でのニューラルネットワークの収束を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This is a short comment on the paper "Asymptotically Stable Adaptive-Optimal Control Algorithm With Saturating Actuators and Relaxed Persistence of Excitation" by Vamvoudakis et al. The question of stability of reinforcement learning (RL) agents remains hard and the said work suggested an on-policy approach with a suitable stability property using a technique from adaptive control - a robustifying term to be added to the action. However, there is an issue with this approach to stabilizing RL, which we will explain in this note. Furthermore, Vamvoudakis et al. seems to have made a fallacious assumption on the Hamiltonian under a generic policy. To provide a positive result, we will not only indicate this mistake, but show critic neural network weight convergence under a stochastic, continuous-time environment, provided certain conditions on the behavior policy hold.
Abstract（参考訳）: 以下は、Vamvoudakisらによる論文"Asymptotically Stable Adaptive-Optimal Control Algorithm with Saturating Actuators and Relaxed Persistence of Excitation"の短いコメントである。強化学習(rl)エージェントの安定性に関する疑問はいまだに残っており、その研究は、適応制御(adaptive control)の手法を用いて、適切な安定性特性を持つオンポリシーアプローチを提案している。しかし、RLの安定化に対するこのアプローチには問題があり、この記事で説明します。さらに、Vamvoudakisらは、一般的な政策の下でハミルトニアンに誤った仮定をしたようである。ポジティブな結果を得るには、この誤りを示すだけでなく、行動ポリシーホールドの特定の条件を条件として、確率的かつ連続的な環境下でのニューラルネットワークの重み収束を批判する。

関連論文リスト

MAD: A Magnitude And Direction Policy Parametrization for Stability Constrained Reinforcement Learning [1.712670816823812]
我々は、強化学習(RL)のための政策パラメータ化であるマグニチュード・アンド・ディレクション(MAD)ポリシーを導入する。 MADポリシは、クローズドループ安定性を損なうことなく、状態依存機能に対する明示的なフィードバックを導入する。 DDPG(Deep Deterministic Policy gradient)法で訓練されたMADポリシが,見当たらないシナリオに一般化されていることを示す。
論文参考訳（メタデータ） (2025-04-03T13:26:26Z)
Distributionally Robust Policy and Lyapunov-Certificate Learning [13.38077406934971]
不確実なシステムに対する安定性を保証するコントローラの設計における重要な課題は、オンラインデプロイメント中のモデルパラメトリック不確実性の変化の正確な決定と適応である。我々は、リアプノフ証明書の単調な減少を保証するために、リアプノフ微分チャンス制約を分布的に頑健に定式化することで、この問題に取り組む。得られた閉ループシステムに対して、その平衡のグローバルな安定性は、アウト・オブ・ディストリビューションの不確実性があっても高い信頼性で証明できることを示す。
論文参考訳（メタデータ） (2024-04-03T18:57:54Z)
Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文参考訳（メタデータ） (2023-12-28T18:28:23Z)
Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear Systems via Sums-of-Squares Optimization [28.627377507894003]
本稿では,非線形システムの制御観測のためのノイズフィードバック,低次出力-制御-パーセプションポリシを提案する。画像からのこれらのシステムが確実に安定できない場合、我々のアプローチは安定性の保証を提供する。
論文参考訳（メタデータ） (2023-04-24T19:34:09Z)
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文参考訳（メタデータ） (2023-03-02T08:57:35Z)
Bounded Robustness in Reinforcement Learning via Lexicographic Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文参考訳（メタデータ） (2022-09-30T08:53:18Z)
KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文参考訳（メタデータ） (2022-06-03T17:27:04Z)
Training Generative Adversarial Networks by Solving Ordinary Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文参考訳（メタデータ） (2020-10-28T15:23:49Z)
Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-08-25T04:09:18Z)
Fine-Grained Analysis of Stability and Generalization for Stochastic Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文参考訳（メタデータ） (2020-06-15T06:30:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。