論文の概要: Latent-Conditioned Policy Gradient for Multi-Objective Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.08909v1
- Date: Wed, 15 Mar 2023 20:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:57:45.311373
- Title: Latent-Conditioned Policy Gradient for Multi-Objective Deep
Reinforcement Learning
- Title(参考訳): 多目的深層強化学習のための潜在条件付き政策勾配
- Authors: Takuya Kanazawa and Chetan Gupta
- Abstract要約: 本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
- 参考スコア(独自算出の注目度): 4.7210697296108926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential decision making in the real world often requires finding a good
balance of conflicting objectives. In general, there exist a plethora of
Pareto-optimal policies that embody different patterns of compromises between
objectives, and it is technically challenging to obtain them exhaustively using
deep neural networks. In this work, we propose a novel multi-objective
reinforcement learning (MORL) algorithm that trains a single neural network via
policy gradient to approximately obtain the entire Pareto set in a single run
of training, without relying on linear scalarization of objectives. The
proposed method works in both continuous and discrete action spaces with no
design change of the policy network. Numerical experiments in benchmark
environments demonstrate the practicality and efficacy of our approach in
comparison to standard MORL baselines.
- Abstract(参考訳): 現実の世界におけるシーケンシャルな意思決定は、しばしば矛盾する目標の適切なバランスを見つける必要がある。
一般に、目的間の妥協パターンの異なるパターンを具現化するパレート最適ポリシーが多数存在し、ディープニューラルネットワークを用いてそれらを徹底的に得ることは技術的に困難である。
本研究では,目的の線形スカラー化を必要とせず,1回のトレーニングでパレートセット全体をほぼ取得するために,ポリシー勾配を介して単一のニューラルネットワークを訓練する,新しい多目的強化学習(morl)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
ベンチマーク環境での数値実験により,本手法の実用性と有効性を示す。
関連論文リスト
- Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
提案手法である Preference-Driven MORL (PD-MORL) は、ネットワークパラメータを更新するためのガイダンスとして、好みを利用する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Pareto Conditioned Networks [1.7188280334580197]
本稿では,すべての非支配的ポリシーを包含するために,単一ニューラルネットワークを用いる手法を提案する。
PCNは過去の移行とエピソードのリターンを関連付け、ネットワークをトレーニングする。
提案手法は教師付き方式で学習することで安定しており,移動目標問題を回避することができる。
論文 参考訳(メタデータ) (2022-04-11T12:09:51Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Breaking the Deadly Triad with a Target Network [75.73684613209868]
致命的な三進法は、非政治学習、関数近似、ブートストラップを同時に使用する場合の強化学習アルゴリズムの不安定性を指します。
バイレベル最適化なしで、非制限および変更行動ポリシー下での最初の収束線形$Q$学習アルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。