論文の概要: Divide and Conquer: Provably Unveiling the Pareto Front with
Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.07182v1
- Date: Sun, 11 Feb 2024 12:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:07:23.239000
- Title: Divide and Conquer: Provably Unveiling the Pareto Front with
Multi-Objective Reinforcement Learning
- Title(参考訳): 分割と征服:多目的強化学習によるパレートフロントの明確化
- Authors: Willem R\"opke, Mathieu Reymond, Patrick Mannion, Diederik M. Roijers,
Ann Now\'e, Roxana R\u{a}dulescu
- Abstract要約: 本稿では,Paretoフロントを単一目的問題列に分解するアルゴリズムIPROを紹介する。
実証的な評価は、IPROが追加のドメイン知識を必要とするメソッドにマッチするか、より優れていることを示している。
問題固有の単目的解法を利用することで、本手法は多目的強化学習を超える応用を約束する。
- 参考スコア(独自算出の注目度): 2.5115843173830252
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A significant challenge in multi-objective reinforcement learning is
obtaining a Pareto front of policies that attain optimal performance under
different preferences. We introduce Iterated Pareto Referent Optimisation
(IPRO), a principled algorithm that decomposes the task of finding the Pareto
front into a sequence of single-objective problems for which various solution
methods exist. This enables us to establish convergence guarantees while
providing an upper bound on the distance to undiscovered Pareto optimal
solutions at each step. Empirical evaluations demonstrate that IPRO matches or
outperforms methods that require additional domain knowledge. By leveraging
problem-specific single-objective solvers, our approach also holds promise for
applications beyond multi-objective reinforcement learning, such as in
pathfinding and optimisation.
- Abstract(参考訳): 多目的強化学習における重要な課題は、異なる選好の下で最適なパフォーマンスを達成する政策のパレート面を得ることである。
本稿では,Paretoフロントの探索を,様々な解法が存在する単一目的問題列に分解するアルゴリズムであるIterated Pareto Referent Optimisation (IPRO)を紹介する。
これにより、各ステップにおいて未発見のパレート最適解に距離の上限を与えながら収束保証を確立することができる。
実証的な評価は、IPROが追加のドメイン知識を必要とするメソッドにマッチするか、より優れていることを示している。
問題固有の単目的解法を利用することで、パスフィニングや最適化などの多目的強化学習以外の応用も期待できる。
関連論文リスト
- Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - UMOEA/D: A Multiobjective Evolutionary Algorithm for Uniform Pareto
Objectives based on Decomposition [19.13435817442015]
多目的最適化(MOO)は、多くのアプリケーションで広く使われている。
従来の手法では、PF全体を表すためにパレートの目的(PF上の粒子)の集合を利用するのが一般的であった。
本稿は,従来のMOO手法で見られる限られた多様性を緩和するため,PF上でのインフォニフォーム分散目的を構築することを提案する。
論文 参考訳(メタデータ) (2024-02-14T08:09:46Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Scalable Uni-directional Pareto Optimality for Multi-Task Learning with
Constraints [4.4044968357361745]
制約下での最適化を含む多目的(MOO)問題に対するスケーラブルなMOOソルバを提案する。
この重要な応用は、ニューラル分類タスクの高次元ランタイムを推定することである。
論文 参考訳(メタデータ) (2021-10-28T21:35:59Z) - Multi-Objective Learning to Predict Pareto Fronts Using Hypervolume
Maximization [0.0]
現実の問題は、しばしば多目的であり、意思決定者は、対立する目的の間のトレードオフが好ましい優先順位を特定できない。
本研究では,学習者の集合に対応する平均損失ベクトルの高体積(HV)を最大化することにより,パレートフロントを推定する新しい学習手法を提案する。
提案手法では,学習者の集合を動的損失関数で多目的に訓練し,各学習者の損失をHV最大化勾配によって重み付けする。
3つの異なる多目的タスクに対する実験は、学習者の集合の出力が実際に十分に拡散していることを示している
論文 参考訳(メタデータ) (2021-02-08T20:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。