論文の概要: Pareto Set Learning for Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.06773v2
- Date: Tue, 14 Jan 2025 16:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:50.159699
- Title: Pareto Set Learning for Multi-Objective Reinforcement Learning
- Title(参考訳): 多目的強化学習のためのパレートセット学習
- Authors: Erlong Liu, Yu-Chang Wu, Xiaobin Huang, Chengrui Gao, Ren-Jian Wang, Ke Xue, Chao Qian,
- Abstract要約: MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。
PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。
PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
- 参考スコア(独自算出の注目度): 19.720934024901542
- License:
- Abstract: Multi-objective decision-making problems have emerged in numerous real-world scenarios, such as video games, navigation and robotics. Considering the clear advantages of Reinforcement Learning (RL) in optimizing decision-making processes, researchers have delved into the development of Multi-Objective RL (MORL) methods for solving multi-objective decision problems. However, previous methods either cannot obtain the entire Pareto front, or employ only a single policy network for all the preferences over multiple objectives, which may not produce personalized solutions for each preference. To address these limitations, we propose a novel decomposition-based framework for MORL, Pareto Set Learning for MORL (PSL-MORL), that harnesses the generation capability of hypernetwork to produce the parameters of the policy network for each decomposition weight, generating relatively distinct policies for various scalarized subproblems with high efficiency. PSL-MORL is a general framework, which is compatible for any RL algorithm. The theoretical result guarantees the superiority of the model capacity of PSL-MORL and the optimality of the obtained policy network. Through extensive experiments on diverse benchmarks, we demonstrate the effectiveness of PSL-MORL in achieving dense coverage of the Pareto front, significantly outperforming state-of-the-art MORL methods in the hypervolume and sparsity indicators.
- Abstract(参考訳): 多目的意思決定問題は、ビデオゲーム、ナビゲーション、ロボット工学など、多くの現実世界のシナリオで発生している。
意思決定プロセスの最適化における強化学習(RL)の明確な利点を考えると、研究者は多目的意思決定問題を解決するための多目的RL(MORL)手法の開発に取り組んできた。
しかし、従来の手法ではパレートフロント全体を取得できないか、あるいは複数の目的に対するすべての好みに対して単一のポリシーネットワークしか使用できないため、それぞれの好みに対してパーソナライズされた解決策が得られない可能性がある。
これらの制約に対処するため,本論文では,各分解重量に対するポリシーネットワークのパラメータを生成するために,ハイパーネットワークの生成能力を活用し,多種多様なスカラー化サブプロブレムに対する比較的異なるポリシーを高効率で生成する,MORLのための新しい分解ベースフレームワークPareto Set Learning for MORL(PSL-MORL)を提案する。
PSL-MORLは一般的なフレームワークであり、任意のRLアルゴリズムと互換性がある。
理論的結果により、PSL-MORLのモデル容量と得られたポリシーネットワークの最適性が保証される。
多様なベンチマーク実験を通じて,PSL-MORLがパレートフロントの密接なカバレッジを実現し,ハイパーボリュームおよびスパシティインジケータにおける最先端のMORL法よりも優れていたことを示す。
関連論文リスト
- In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning [0.6650227510403052]
多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。
MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。
我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
論文 参考訳(メタデータ) (2024-07-23T19:17:47Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Bi-level Multi-objective Evolutionary Learning: A Case Study on
Multi-task Graph Neural Topology Search [47.59828447981408]
本稿では,二段階多目的学習フレームワークBLMOLを提案する。
決定過程とUL-MOPの最適化過程を結合する。
UL-MOPの高価な評価プロセスを置き換えるために、選好サロゲートモデルを構築した。
論文 参考訳(メタデータ) (2023-02-06T04:59:51Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - Self-Evolutionary Optimization for Pareto Front Learning [34.17125297176668]
マルチタスク問題に対する多目的最適化(MOO)手法が提案されている。
最近のMOO法は、単一の統一モデルで複数の最適解(パレートフロント)を近似する。
PFLは複数の目的を持つ別のMOO問題に再変換可能であることを示し、それぞれがタスクの好みの重みに対応していることを示す。
論文 参考訳(メタデータ) (2021-10-07T13:38:57Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。