論文の概要: Divide and Conquer: Provably Unveiling the Pareto Front with Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.07182v3
- Date: Thu, 06 Feb 2025 07:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 10:49:52.342419
- Title: Divide and Conquer: Provably Unveiling the Pareto Front with Multi-Objective Reinforcement Learning
- Title(参考訳): 分身と結束:多目的強化学習によるパレートフロントの展開の可能性
- Authors: Willem Röpke, Mathieu Reymond, Patrick Mannion, Diederik M. Roijers, Ann Nowé, Roxana Rădulescu,
- Abstract要約: 反復パレート参照最適化(IPRO)を導入する。
IPROはParetoフロントを制約付き単目的問題の列に分解する。
問題固有の単目的解法を利用することで、本手法は多目的強化学習を超える応用を約束する。
- 参考スコア(独自算出の注目度): 5.897578963773195
- License:
- Abstract: An important challenge in multi-objective reinforcement learning is obtaining a Pareto front of policies to attain optimal performance under different preferences. We introduce Iterated Pareto Referent Optimisation (IPRO), which decomposes finding the Pareto front into a sequence of constrained single-objective problems. This enables us to guarantee convergence while providing an upper bound on the distance to undiscovered Pareto optimal solutions at each step. We evaluate IPRO using utility-based metrics and its hypervolume and find that it matches or outperforms methods that require additional assumptions. By leveraging problem-specific single-objective solvers, our approach also holds promise for applications beyond multi-objective reinforcement learning, such as planning and pathfinding.
- Abstract(参考訳): 多目的強化学習における重要な課題は、異なる好みの下で最適なパフォーマンスを達成するためのポリシーのParetoフロントを取得することである。
本稿では,パレート参照最適化 (IPRO) を導入し,パレートフロントの探索を制約付き単目的問題列に分解する。
これにより、各ステップにおいて未発見のパレート最適解に距離の上限を与えながら収束を保証することができる。
ユーティリティベースのメトリクスとそのハイパーボリュームを用いてIPROを評価し、追加の仮定を必要とするメソッドにマッチし、性能が向上することを確認した。
問題固有の単目的解法を活用すれば、計画やパスフィニングといった多目的強化学習以外の応用も期待できる。
関連論文リスト
- Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - UMOEA/D: A Multiobjective Evolutionary Algorithm for Uniform Pareto
Objectives based on Decomposition [19.13435817442015]
多目的最適化(MOO)は、多くのアプリケーションで広く使われている。
従来の手法では、PF全体を表すためにパレートの目的(PF上の粒子)の集合を利用するのが一般的であった。
本稿は,従来のMOO手法で見られる限られた多様性を緩和するため,PF上でのインフォニフォーム分散目的を構築することを提案する。
論文 参考訳(メタデータ) (2024-02-14T08:09:46Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Scalable Uni-directional Pareto Optimality for Multi-Task Learning with
Constraints [4.4044968357361745]
制約下での最適化を含む多目的(MOO)問題に対するスケーラブルなMOOソルバを提案する。
この重要な応用は、ニューラル分類タスクの高次元ランタイムを推定することである。
論文 参考訳(メタデータ) (2021-10-28T21:35:59Z) - Multi-Objective Learning to Predict Pareto Fronts Using Hypervolume
Maximization [0.0]
現実の問題は、しばしば多目的であり、意思決定者は、対立する目的の間のトレードオフが好ましい優先順位を特定できない。
本研究では,学習者の集合に対応する平均損失ベクトルの高体積(HV)を最大化することにより,パレートフロントを推定する新しい学習手法を提案する。
提案手法では,学習者の集合を動的損失関数で多目的に訓練し,各学習者の損失をHV最大化勾配によって重み付けする。
3つの異なる多目的タスクに対する実験は、学習者の集合の出力が実際に十分に拡散していることを示している
論文 参考訳(メタデータ) (2021-02-08T20:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。