論文の概要: Multi-Policy Pareto Front Tracking Based Online and Offline Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.02217v1
- Date: Mon, 04 Aug 2025 09:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.26861
- Title: Multi-Policy Pareto Front Tracking Based Online and Offline Multi-Objective Reinforcement Learning
- Title(参考訳): オンライン・オフライン多目的強化学習に基づく多目的パレートフロントトラッキング
- Authors: Zeyu Zhao, Yueling Che, Kaichen Liu, Jian Li, Junmei Yao,
- Abstract要約: MORL (Multi-policy reinforcement learning) は, 実世界の多条件意思決定問題に対処する上で重要な役割を担っている。
従来のMP手法は、オンライン強化学習(RL)にのみ依存し、大きな政策人口を持つ進化的枠組みを採用する。
本稿では,オンラインおよびオフラインのMORLアルゴリズムを適用可能なMPFTフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.815740081890867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective reinforcement learning (MORL) plays a pivotal role in addressing multi-criteria decision-making problems in the real world. The multi-policy (MP) based methods are widely used to obtain high-quality Pareto front approximation for the MORL problems. However, traditional MP methods only rely on the online reinforcement learning (RL) and adopt the evolutionary framework with a large policy population. This may lead to sample inefficiency and/or overwhelmed agent-environment interactions in practice. By forsaking the evolutionary framework, we propose the novel Multi-policy Pareto Front Tracking (MPFT) framework without maintaining any policy population, where both online and offline MORL algorithms can be applied. The proposed MPFT framework includes four stages: Stage 1 approximates all the Pareto-vertex policies, whose mapping to the objective space fall on the vertices of the Pareto front. Stage 2 designs the new Pareto tracking mechanism to track the Pareto front, starting from each of the Pareto-vertex policies. Stage 3 identifies the sparse regions in the tracked Pareto front, and introduces a new objective weight adjustment method to fill the sparse regions. Finally, by combining all the policies tracked in Stages 2 and 3, Stage 4 approximates the Pareto front. Experiments are conducted on seven different continuous-action robotic control tasks with both online and offline MORL algorithms, and demonstrate the superior hypervolume performance of our proposed MPFT approach over the state-of-the-art benchmarks, with significantly reduced agent-environment interactions and hardware requirements.
- Abstract(参考訳): 多目的強化学習(MORL)は,実世界の多目的意思決定問題に対処する上で重要な役割を担っている。
マルチポリス法(MP法)は,MORL問題に対する高品質なパレートフロント近似を得るために広く用いられている。
しかし、従来のMP手法は、オンライン強化学習(RL)にのみ依存し、大きな政策人口を持つ進化的枠組みを採用する。
これは実際には非効率性や過剰なエージェント環境相互作用を引き起こす可能性がある。
進化的枠組みを禁じて、オンラインおよびオフラインのMORLアルゴリズムを適用可能な政策人口を維持することなく、新しいMPFT(Multi-policy Pareto Front Tracking)フレームワークを提案する。
提案されたMPFTフレームワークは4つの段階を含む: ステージ1はPareto-vertexのすべてのポリシーを近似し、その対象空間へのマッピングはParetoフロントの頂点に落ちる。
ステージ2は、Pareto-vertexポリシーのそれぞれから始まるParetoフロントを追跡する新しいParetoトラッキングメカニズムを設計している。
ステージ3では、追跡されたパレートフロントのスパース領域を特定し、スパース領域を埋める新しい目的量調整法を導入する。
最後に、ステージ2と3で追跡されるすべてのポリシーを組み合わせることで、ステージ4はパレートフロントを近似する。
オンラインMORLアルゴリズムとオフラインMORLアルゴリズムの両方を用いた7つの連続動作ロボット制御タスクの実験を行い、エージェント環境相互作用とハードウェア要件を著しく低減し、最先端のベンチマークに対して提案したMPFTアプローチの高ボリューム性能を実証した。
関連論文リスト
- Alignment of large language models with constrained learning [93.2264691508005]
本研究では,制約付きアライメント問題に対する最適大言語モデル (LLM) ポリシーの計算問題について検討する。
我々はラグランジアン双対性を用いて、ラグランジアンによるポリシーの更新と双対降下による双対変数の更新を交互に交互に行う反復的双対ベースアライメント法を開発する。
論文 参考訳(メタデータ) (2025-05-26T01:04:56Z) - How to Find the Exact Pareto Front for Multi-Objective MDPs? [28.70863169250383]
多目的マルコフ決定プロセス (MO-MDPs) は, 現実の意思決定問題は, 単一目的のMDPでは対応できない相反する目的を伴うことが多いため, 注目を集めている。
本研究では,パレートフロントの効率的な発見という課題に対処する。
MO-MDPにおけるパレートフロントの幾何学的構造を調べた結果,鍵となる性質が明らかになった。
この洞察は、すべての政策間でのグローバルな比較を、一つの状態-作用ペアによって異なる決定論的ポリシー間の局所的な探索に変換する。
論文 参考訳(メタデータ) (2024-10-21T01:03:54Z) - C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
本稿では,機械学習におけるマルチタスクトレードオフに対処するパラメータ効率の高い新しい手法PaLoRAを紹介する。
実験の結果、PaLoRAは様々なデータセットで最先端のMTLとPFLのベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-10T21:25:51Z) - Learning Pareto Set for Multi-Objective Continuous Robot Control [7.853788769559891]
本研究では,高次元ポリシーパラメータ空間におけるパレート集合の連続表現を学習する,単純かつ資源効率のMORLアルゴリズムを提案する。
実験結果から,本手法はトレーニングパラメータを最小にすることで,最高の総合的な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-06-27T06:31:51Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning [2.1408617023874443]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。