論文の概要: PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm
- arxiv url: http://arxiv.org/abs/2208.07914v3
- Date: Mon, 29 May 2023 19:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:45:07.784399
- Title: PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm
- Title(参考訳): pd-morl:選好駆動多目的強化学習アルゴリズム
- Authors: Toygun Basaklar, Suat Gumussoy, Umit Y. Ogras
- Abstract要約: 本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
- 参考スコア(独自算出の注目度): 0.18416014644193063
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-objective reinforcement learning (MORL) approaches have emerged to
tackle many real-world problems with multiple conflicting objectives by
maximizing a joint objective function weighted by a preference vector. These
approaches find fixed customized policies corresponding to preference vectors
specified during training. However, the design constraints and objectives
typically change dynamically in real-life scenarios. Furthermore, storing a
policy for each potential preference is not scalable. Hence, obtaining a set of
Pareto front solutions for the entire preference space in a given domain with a
single training is critical. To this end, we propose a novel MORL algorithm
that trains a single universal network to cover the entire preference space
scalable to continuous robotic tasks. The proposed approach, Preference-Driven
MORL (PD-MORL), utilizes the preferences as guidance to update the network
parameters. It also employs a novel parallelization approach to increase sample
efficiency. We show that PD-MORL achieves up to 25% larger hypervolume for
challenging continuous control tasks and uses an order of magnitude fewer
trainable parameters compared to prior approaches.
- Abstract(参考訳): 多目的強化学習(MORL)アプローチは、優先ベクトルで重み付けされた結合目的関数を最大化することにより、複数の競合する目的を持つ現実世界の多くの問題に対処する。
これらのアプローチは、トレーニング中に指定された選好ベクトルに対応するカスタマイズされたポリシーを見つける。
しかし、設計上の制約と目的は通常、現実のシナリオで動的に変化する。
さらに、潜在的な嗜好ごとにポリシーを保存することはスケーラブルではない。
したがって、1つのトレーニングで所定の領域内の選好空間全体に対するpareto front solutionのセットを得ることは極めて重要である。
そこで本研究では,連続ロボットタスクにスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークを訓練する新しいmorlアルゴリズムを提案する。
提案手法である Preference-Driven MORL (PD-MORL) は、ネットワークパラメータを更新するためのガイダンスとして、好みを利用する。
また、サンプル効率を高めるために新しい並列化アプローチも採用している。
pd-morlは,連続制御タスクに対して最大25%大きなハイパーボリュームを達成し,トレーニング可能なパラメータを従来よりも桁違いに削減できることを示した。
関連論文リスト
- C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks [12.323383132739195]
我々は,無線ネットワークの選択と自律運転ポリシーを協調的に最適化する,新しい多目的強化学習フレームワークを開発した。
提案フレームワークは,車両の運動力学を制御することにより,交通流の最大化と衝突の最小化を目的としている。
提案されたポリシーにより、自動運転車は、接続性を改善した安全な運転行動を採用することができる。
論文 参考訳(メタデータ) (2024-05-18T16:31:32Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Scaling Pareto-Efficient Decision Making Via Offline Multi-Objective RL [22.468486569700236]
多目的強化学習(MORL)の目的は、複数の競合対象を同時に最適化するポリシーを学ぶことである。
我々は、オフラインMORLのための新しいデータ駆動型セットアップを提案し、そこで、好みに依存しないポリシーエージェントを学習したい。
PEDAはオフラインのMORLアルゴリズムのファミリーであり、新しい優先順位と条件付きポリシーを通じて決定変換器を構築し拡張する。
論文 参考訳(メタデータ) (2023-04-30T20:15:26Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning [2.1408617023874443]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。