論文の概要: Divide and Conquer: Provably Unveiling the Pareto Front with
Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.07182v1
- Date: Sun, 11 Feb 2024 12:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:07:23.239000
- Title: Divide and Conquer: Provably Unveiling the Pareto Front with
Multi-Objective Reinforcement Learning
- Title(参考訳): 分割と征服:多目的強化学習によるパレートフロントの明確化
- Authors: Willem R\"opke, Mathieu Reymond, Patrick Mannion, Diederik M. Roijers,
Ann Now\'e, Roxana R\u{a}dulescu
- Abstract要約: 本稿では,Paretoフロントを単一目的問題列に分解するアルゴリズムIPROを紹介する。
実証的な評価は、IPROが追加のドメイン知識を必要とするメソッドにマッチするか、より優れていることを示している。
問題固有の単目的解法を利用することで、本手法は多目的強化学習を超える応用を約束する。
- 参考スコア(独自算出の注目度): 2.5115843173830252
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A significant challenge in multi-objective reinforcement learning is
obtaining a Pareto front of policies that attain optimal performance under
different preferences. We introduce Iterated Pareto Referent Optimisation
(IPRO), a principled algorithm that decomposes the task of finding the Pareto
front into a sequence of single-objective problems for which various solution
methods exist. This enables us to establish convergence guarantees while
providing an upper bound on the distance to undiscovered Pareto optimal
solutions at each step. Empirical evaluations demonstrate that IPRO matches or
outperforms methods that require additional domain knowledge. By leveraging
problem-specific single-objective solvers, our approach also holds promise for
applications beyond multi-objective reinforcement learning, such as in
pathfinding and optimisation.
- Abstract(参考訳): 多目的強化学習における重要な課題は、異なる選好の下で最適なパフォーマンスを達成する政策のパレート面を得ることである。
本稿では,Paretoフロントの探索を,様々な解法が存在する単一目的問題列に分解するアルゴリズムであるIterated Pareto Referent Optimisation (IPRO)を紹介する。
これにより、各ステップにおいて未発見のパレート最適解に距離の上限を与えながら収束保証を確立することができる。
実証的な評価は、IPROが追加のドメイン知識を必要とするメソッドにマッチするか、より優れていることを示している。
問題固有の単目的解法を利用することで、パスフィニングや最適化などの多目的強化学習以外の応用も期待できる。
関連論文リスト
- How to Find the Exact Pareto Front for Multi-Objective MDPs? [28.70863169250383]
多目的マルコフ決定プロセス (MDPs) は、現実の意思決定問題は、単一目的のMDPでは対応できない相反する目的を伴うことが多いため、注目を集めている。
Paretoのフロントは、支配できないポリシーの集合を特定し、様々な好みに効率的に適応できる最適なソリューションを見つけるための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-21T01:03:54Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - UMOEA/D: A Multiobjective Evolutionary Algorithm for Uniform Pareto
Objectives based on Decomposition [19.13435817442015]
多目的最適化(MOO)は、多くのアプリケーションで広く使われている。
従来の手法では、PF全体を表すためにパレートの目的(PF上の粒子)の集合を利用するのが一般的であった。
本稿は,従来のMOO手法で見られる限られた多様性を緩和するため,PF上でのインフォニフォーム分散目的を構築することを提案する。
論文 参考訳(メタデータ) (2024-02-14T08:09:46Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - A Scale-Independent Multi-Objective Reinforcement Learning with
Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。
本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。
次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文 参考訳(メタデータ) (2023-02-08T16:38:55Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Scalable Uni-directional Pareto Optimality for Multi-Task Learning with
Constraints [4.4044968357361745]
制約下での最適化を含む多目的(MOO)問題に対するスケーラブルなMOOソルバを提案する。
この重要な応用は、ニューラル分類タスクの高次元ランタイムを推定することである。
論文 参考訳(メタデータ) (2021-10-28T21:35:59Z) - Pareto Multi-Task Learning [53.90732663046125]
マルチタスク学習は複数の相関タスクを同時に解くための強力な方法である。
異なるタスクが互いに衝突する可能性があるため、すべてのタスクを最適化するひとつのソリューションを見つけることは、しばしば不可能である。
近年,マルチタスク学習を多目的最適化として活用することにより,タスク間のトレードオフが良好である1つのパレート最適解を求める方法が提案されている。
論文 参考訳(メタデータ) (2019-12-30T08:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。