Fugu-MT 論文翻訳(概要): C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front

論文の概要: C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front

arxiv url: http://arxiv.org/abs/2410.02236v1
Date: Thu, 3 Oct 2024 06:13:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 07:46:05.691376
Title: C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front
Title（参考訳）: C-MORL:パレートフロントの効率的な発見による多目的強化学習
Authors: Ruohong Liu, Yuxin Pan, Linjie Xu, Lei Song, Pengcheng You, Yize Chen, Jiang Bian,
Abstract要約: 制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
参考スコア（独自算出の注目度）: 9.04360155372014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-objective reinforcement learning (MORL) excels at handling rapidly changing preferences in tasks that involve multiple criteria, even for unseen preferences. However, previous dominating MORL methods typically generate a fixed policy set or preference-conditioned policy through multiple training iterations exclusively for sampled preference vectors, and cannot ensure the efficient discovery of the Pareto front. Furthermore, integrating preferences into the input of policy or value functions presents scalability challenges, in particular as the dimension of the state and preference space grow, which can complicate the learning process and hinder the algorithm's performance on more complex tasks. To address these issues, we propose a two-stage Pareto front discovery algorithm called Constrained MORL (C-MORL), which serves as a seamless bridge between constrained policy optimization and MORL. Concretely, a set of policies is trained in parallel in the initialization stage, with each optimized towards its individual preference over the multiple objectives. Then, to fill the remaining vacancies in the Pareto front, the constrained optimization steps are employed to maximize one objective while constraining the other objectives to exceed a predefined threshold. Empirically, compared to recent advancements in MORL methods, our algorithm achieves more consistent and superior performances in terms of hypervolume, expected utility, and sparsity on both discrete and continuous control tasks, especially with numerous objectives (up to nine objectives in our experiments).
Abstract（参考訳）: マルチオブジェクト強化学習(MORL)は、目立たない選好であっても、複数の基準を含むタスクにおいて、急速に変化する選好を扱うのに優れている。しかし、従来の支配的MORL法は、通常、サンプル化された選好ベクトルのみに限って、複数のトレーニング繰り返しを通じて、固定されたポリシーセットまたは選好条件ポリシーを生成し、パレートフロントの効率的な発見を確実にすることができない。さらに、プライオリティをポリシやバリュー関数の入力に組み込むことは、特に状態とプライオリティ空間の次元が大きくなるにつれて、スケーラビリティ上の課題をもたらし、学習プロセスを複雑化し、より複雑なタスクにおけるアルゴリズムのパフォーマンスを妨げる。これらの問題に対処するために,制約付きポリシー最適化とMORLのシームレスなブリッジとして機能する,制約付きMORL (Constrained MORL) と呼ばれる2段階のParetoフロントエンド探索アルゴリズムを提案する。具体的には、ポリシーのセットは初期化段階で並列に訓練され、それぞれが複数の目的に対して個人の好みに最適化される。そして、パレートフロントの残りの空白を埋めるために、制約された最適化ステップを用いて、一方の目標を最大化し、他方の目標を予め定義されたしきい値を超えるように制約する。 MORL法の最近の進歩と比較して、我々のアルゴリズムは、特に多くの目的(実験で最大9つの目的)において、離散的かつ連続的な制御タスクにおいて、超体積、期待効用、空間性の観点からより一貫性と優れた性能を達成する。

関連論文リスト

Interpretability by Design for Efficient Multi-Objective Reinforcement Learning [0.5524804393257919]
MORL(Multi-objective reinforcement learning)は、RLの柔軟性と信頼性を向上させるために、いくつかの、しばしば矛盾する目標を最適化することを目的としている。これは、ある客観的な選好に最適で、他の選好に最適な政策によって支配されない多様なポリシーを見つけ、多目的のパフォーマンス空間においてパレートフロントを形成することで達成できる。
論文参考訳（メタデータ） (2025-06-04T14:52:18Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation [6.876580618014666]
本稿では,識別器の正則化のための報酬距離推定を用いて,逆強化学習(IRL)を適用する。本稿では,多目的制御タスクにおいて,ParIRLが他のIRLアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2024-08-22T03:51:39Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文参考訳（メタデータ） (2024-03-01T04:57:13Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Sample-Efficient Multi-Objective Learning via Generalized Policy Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2023-01-18T20:54:40Z)
Pareto Manifold Learning: Tackling multiple tasks via ensembles of single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文参考訳（メタデータ） (2022-10-18T11:20:54Z)
PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。 PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文参考訳（メタデータ） (2022-08-16T19:23:02Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文参考訳（メタデータ） (2022-04-11T10:06:49Z)
Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文参考訳（メタデータ） (2020-11-19T22:35:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。