論文の概要: gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach
- arxiv url: http://arxiv.org/abs/2204.04988v1
- Date: Mon, 11 Apr 2022 10:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 01:45:50.929623
- Title: gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach
- Title(参考訳): gtlo: 一般化および非線形多目的深層強化学習手法
- Authors: Johannes Dornheim
- Abstract要約: Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world decision optimization, often multiple competing objectives must
be taken into account. Following classical reinforcement learning, these
objectives have to be combined into a single reward function. In contrast,
multi-objective reinforcement learning (MORL) methods learn from vectors of
per-objective rewards instead. In the case of multi-policy MORL, sets of
decision policies for various preferences regarding the conflicting objectives
are optimized. This is especially important when target preferences are not
known during training or when preferences change dynamically during
application. While it is, in general, straightforward to extend a
single-objective reinforcement learning method for MORL based on linear
scalarization, solutions that are reachable by these methods are limited to
convex regions of the Pareto front. Non-linear MORL methods like Thresholded
Lexicographic Ordering (TLO) are designed to overcome this limitation.
Generalized MORL methods utilize function approximation to generalize across
objective preferences and thereby implicitly learn multiple policies in a
data-efficient manner, even for complex decision problems with high-dimensional
or continuous state spaces. In this work, we propose \textit{generalized
Thresholded Lexicographic Ordering} (gTLO), a novel method that aims to combine
non-linear MORL with the advantages of generalized MORL. We introduce a deep
reinforcement learning realization of the algorithm and present promising
results on a standard benchmark for non-linear MORL and a real-world
application from the domain of manufacturing process control.
- Abstract(参考訳): 現実の意思決定の最適化では、しばしば複数の競合する目的を考慮に入れなければならない。
古典的強化学習の後、これらの目的を1つの報酬関数にまとめる必要がある。
対照的に、多目的強化学習(MORL)法は、代わりに目的ごとの報酬のベクトルから学習する。
マルチポリシーモールの場合、相反する目的に関する様々な選好に関する一連の決定ポリシーが最適化される。
これは、トレーニング中にターゲットの好みが分かっていない場合や、アプリケーションで好みが動的に変化する場合、特に重要である。
一般に、線形スカラー化に基づくmorlの単目的強化学習法を拡張することは容易であるが、これらの方法で到達可能な解はパレート前線の凸領域に限定される。
Thresholded Lexicographic Ordering (TLO)のような非線形MORL法はこの制限を克服するために設計されている。
一般化されたMORL法は関数近似を利用して目的の選好を一般化し、高次元あるいは連続状態空間の複雑な決定問題であっても、データ効率のよい方法で複数のポリシーを暗黙的に学習する。
本稿では,非線形MORLと一般化MORLの利点を組み合わせることを目的とした新しい手法として,textit{ Generalized Thresholded Lexicographic Ordering} (gTLO)を提案する。
本稿では,本アルゴリズムの深層強化学習の実現と,製造プロセス制御の領域から,非線形MORLの標準ベンチマークと実世界の応用に関する有望な結果を示す。
関連論文リスト
- C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning [2.1408617023874443]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。