Fugu-MT 論文翻訳(概要): Divide and Conquer: Provably Unveiling the Pareto Front with Multi-Objective Reinforcement Learning

論文の概要: Divide and Conquer: Provably Unveiling the Pareto Front with Multi-Objective Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.07182v3
Date: Thu, 06 Feb 2025 07:55:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 13:23:05.884675
Title: Divide and Conquer: Provably Unveiling the Pareto Front with Multi-Objective Reinforcement Learning
Title（参考訳）: 分身と結束:多目的強化学習によるパレートフロントの展開の可能性
Authors: Willem Röpke, Mathieu Reymond, Patrick Mannion, Diederik M. Roijers, Ann Nowé, Roxana Rădulescu,
Abstract要約: 反復パレート参照最適化(IPRO)を導入する。 IPROはParetoフロントを制約付き単目的問題の列に分解する。問題固有の単目的解法を利用することで、本手法は多目的強化学習を超える応用を約束する。
参考スコア（独自算出の注目度）: 5.897578963773195
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: An important challenge in multi-objective reinforcement learning is obtaining a Pareto front of policies to attain optimal performance under different preferences. We introduce Iterated Pareto Referent Optimisation (IPRO), which decomposes finding the Pareto front into a sequence of constrained single-objective problems. This enables us to guarantee convergence while providing an upper bound on the distance to undiscovered Pareto optimal solutions at each step. We evaluate IPRO using utility-based metrics and its hypervolume and find that it matches or outperforms methods that require additional assumptions. By leveraging problem-specific single-objective solvers, our approach also holds promise for applications beyond multi-objective reinforcement learning, such as planning and pathfinding.
Abstract（参考訳）: 多目的強化学習における重要な課題は、異なる好みの下で最適なパフォーマンスを達成するためのポリシーのParetoフロントを取得することである。本稿では,パレート参照最適化 (IPRO) を導入し,パレートフロントの探索を制約付き単目的問題列に分解する。これにより、各ステップにおいて未発見のパレート最適解に距離の上限を与えながら収束を保証することができる。ユーティリティベースのメトリクスとそのハイパーボリュームを用いてIPROを評価し、追加の仮定を必要とするメソッドにマッチし、性能が向上することを確認した。問題固有の単目的解法を活用すれば、計画やパスフィニングといった多目的強化学習以外の応用も期待できる。

関連論文リスト

Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-21T16:49:38Z)
Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。 DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文参考訳（メタデータ） (2025-02-20T08:27:00Z)
How to Find the Exact Pareto Front for Multi-Objective MDPs? [28.70863169250383]
多目的マルコフ決定プロセス (MDPs) は、現実の意思決定問題は、単一目的のMDPでは対応できない相反する目的を伴うことが多いため、注目を集めている。 Paretoのフロントは、支配できないポリシーの集合を特定し、様々な好みに効率的に適応できる最適なソリューションを見つけるための基盤を提供する。
論文参考訳（メタデータ） (2024-10-21T01:03:54Z)
Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文参考訳（メタデータ） (2024-07-04T02:19:49Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
UMOEA/D: A Multiobjective Evolutionary Algorithm for Uniform Pareto Objectives based on Decomposition [19.13435817442015]
多目的最適化(MOO)は、多くのアプリケーションで広く使われている。従来の手法では、PF全体を表すためにパレートの目的(PF上の粒子)の集合を利用するのが一般的であった。本稿は,従来のMOO手法で見られる限られた多様性を緩和するため,PF上でのインフォニフォーム分散目的を構築することを提案する。
論文参考訳（メタデータ） (2024-02-14T08:09:46Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
A Scale-Independent Multi-Objective Reinforcement Learning with Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文参考訳（メタデータ） (2023-02-08T16:38:55Z)
Pareto Manifold Learning: Tackling multiple tasks via ensembles of single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文参考訳（メタデータ） (2022-10-18T11:20:54Z)
Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文参考訳（メタデータ） (2022-01-28T05:53:28Z)
Scalable Uni-directional Pareto Optimality for Multi-Task Learning with Constraints [4.4044968357361745]
制約下での最適化を含む多目的(MOO)問題に対するスケーラブルなMOOソルバを提案する。この重要な応用は、ニューラル分類タスクの高次元ランタイムを推定することである。
論文参考訳（メタデータ） (2021-10-28T21:35:59Z)
Multi-Objective Learning to Predict Pareto Fronts Using Hypervolume Maximization [0.0]
現実の問題は、しばしば多目的であり、意思決定者は、対立する目的の間のトレードオフが好ましい優先順位を特定できない。本研究では,学習者の集合に対応する平均損失ベクトルの高体積(HV)を最大化することにより,パレートフロントを推定する新しい学習手法を提案する。提案手法では,学習者の集合を動的損失関数で多目的に訓練し,各学習者の損失をHV最大化勾配によって重み付けする。 3つの異なる多目的タスクに対する実験は、学習者の集合の出力が実際に十分に拡散していることを示している
論文参考訳（メタデータ） (2021-02-08T20:41:21Z)
Pareto Multi-Task Learning [53.90732663046125]
マルチタスク学習は複数の相関タスクを同時に解くための強力な方法である。異なるタスクが互いに衝突する可能性があるため、すべてのタスクを最適化するひとつのソリューションを見つけることは、しばしば不可能である。近年,マルチタスク学習を多目的最適化として活用することにより,タスク間のトレードオフが良好である1つのパレート最適解を求める方法が提案されている。
論文参考訳（メタデータ） (2019-12-30T08:58:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。