Fugu-MT 論文翻訳(概要): Bounded Robustness in Reinforcement Learning via Lexicographic Objectives

論文の概要: Bounded Robustness in Reinforcement Learning via Lexicographic Objectives

arxiv url: http://arxiv.org/abs/2209.15320v2
Date: Mon, 11 Dec 2023 15:00:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 03:34:35.870336
Title: Bounded Robustness in Reinforcement Learning via Lexicographic Objectives
Title（参考訳）: 語彙目標を用いた強化学習における有界ロバスト性
Authors: Daniel Jarne Ornia, Licio Romao, Lewis Hammond, Manuel Mazo Jr., Alessandro Abate
Abstract要約: 強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
参考スコア（独自算出の注目度）: 54.00072722686121
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy robustness in Reinforcement Learning may not be desirable at any cost: the alterations caused by robustness requirements from otherwise optimal policies should be explainable, quantifiable and formally verifiable. In this work we study how policies can be maximally robust to arbitrary observational noise by analysing how they are altered by this noise through a stochastic linear operator interpretation of the disturbances, and establish connections between robustness and properties of the noise kernel and of the underlying MDPs. Then, we construct sufficient conditions for policy robustness, and propose a robustness-inducing scheme, applicable to any policy gradient algorithm, that formally trades off expected policy utility for robustness through lexicographic optimisation, while preserving convergence and sub-optimality in the policy synthesis.
Abstract（参考訳）: 強化学習におけるポリシーのロバスト性は、いかなるコストでも望ましくないかもしれない: 適切なポリシーからのロバスト性要求によって引き起こされる変更は、説明可能で、定量化され、正式に検証されるべきである。本研究では,外乱の確率的線形演算子解釈を通じて,任意の観測ノイズに対して,ポリシーを最大限に頑健にする方法について検討し,雑音核の頑健性と特性と基礎となるmdpとの関係性を確立する。そこで,我々は,政策のロバスト性を実現するための十分な条件を構築し,任意の政策勾配アルゴリズムに適用可能なロバスト性誘導スキームを提案する。

関連論文リスト

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。 RRPOは双対の定式化に頼ることなく、主問題に直接作用する。我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文参考訳（メタデータ） (2025-08-24T16:59:38Z)
Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-27T18:57:03Z)
Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-19T15:54:38Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Reinforcement Learning for Adaptive Optimal Stationary Control of Linear Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-16T09:27:02Z)
Learning Robust Feedback Policies from Demonstrations [9.34612743192798]
閉ループ性能と境界(逆)摂動に対する堅牢性に関する実証可能な保証を示すフィードバック制御ポリシーを学ぶための新しいフレームワークを提案し、分析する。これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。
論文参考訳（メタデータ） (2021-03-30T19:11:05Z)
On Imitation Learning of Linear Control Policies: Enforcing Stability and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文参考訳（メタデータ） (2021-03-24T02:43:03Z)
Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-08-25T04:09:18Z)
Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文参考訳（メタデータ） (2020-06-01T13:48:59Z)
Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。 textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文参考訳（メタデータ） (2020-03-21T00:10:29Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。