論文の概要: Scale-Invariant Gradient Aggregation for Constrained Multi-Objective
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.00282v1
- Date: Fri, 1 Mar 2024 04:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:03:32.698848
- Title: Scale-Invariant Gradient Aggregation for Constrained Multi-Objective
Reinforcement Learning
- Title(参考訳): 制約付き多目的強化学習のためのスケール不変勾配アグリゲーション
- Authors: Dohyeong Kim, Mineui Hong, Jeongho Park, Songhwai Oh
- Abstract要約: 制約付き多目的グラディエントアグリゲータ(CoMOGA)という制約付きMORLアルゴリズムを提案する。
複数の目的と制約を同時に扱うことの難しさを認識し、CoMOGAは元のCMORL問題を制約付き最適化問題に緩和する。
提案手法は,事前定義された制約を満たすことなく,局所的なパレート最適ポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 14.469211624761238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective reinforcement learning (MORL) aims to find a set of Pareto
optimal policies to cover various preferences. However, to apply MORL in
real-world applications, it is important to find policies that are not only
Pareto optimal but also satisfy pre-defined constraints for safety. To this
end, we propose a constrained MORL (CMORL) algorithm called Constrained
Multi-Objective Gradient Aggregator (CoMOGA). Recognizing the difficulty of
handling multiple objectives and constraints concurrently, CoMOGA relaxes the
original CMORL problem into a constrained optimization problem by transforming
the objectives into additional constraints. This novel transformation process
ensures that the converted constraints are invariant to the objective scales
while having the same effect as the original objectives. We show that the
proposed method converges to a local Pareto optimal policy while satisfying the
predefined constraints. Empirical evaluations across various tasks show that
the proposed method outperforms other baselines by consistently meeting
constraints and demonstrating invariance to the objective scales.
- Abstract(参考訳): 多目的強化学習(morl:multi-objective reinforcement learning)は、様々な好みをカバーするためのパレート最適ポリシーのセットを見つけることを目的としている。
しかしながら、実世界のアプリケーションに適用するには、パレート最適であるだけでなく、安全のための事前定義された制約を満たすポリシーを見つけることが重要である。
この目的のために,制約付きMORL(CMORL)アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoMOGA)を提案する。
複数の目的と制約を同時に扱うことの難しさを認識したCoMOGAは、目的を新たな制約に変換することにより、元のCMORL問題を制約付き最適化問題に緩和する。
この新しい変換プロセスは、変換された制約が、元の目的と同じ効果を持ちながら、目的スケールに不変であることを保証する。
提案手法は,事前定義された制約を満たしながら,局所パレート最適方針に収束することを示す。
種々の課題に対する実証的な評価は,提案手法が制約を一貫して満たし,目的尺度に不変性を示すことによって,他の基準よりも優れていることを示す。
関連論文リスト
- Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep
Reinforcement Learning [4.7210697296108926]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - Convergence and sample complexity of natural policy gradient primal-dual
methods for constrained MDPs [24.582720609592464]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Algorithm for Constrained Markov Decision Process with Linear
Convergence [55.41644538483948]
エージェントは、そのコストに対する複数の制約により、期待される累積割引報酬を最大化することを目的としている。
エントロピー正規化ポリシーとベイダの二重化という2つの要素を統合した新しい双対アプローチが提案されている。
提案手法は(線形速度で)大域的最適値に収束することが示されている。
論文 参考訳(メタデータ) (2022-06-03T16:26:38Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。