論文の概要: Pareto Conditioned Networks
- arxiv url: http://arxiv.org/abs/2204.05036v1
- Date: Mon, 11 Apr 2022 12:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 00:26:27.637585
- Title: Pareto Conditioned Networks
- Title(参考訳): pareto条件付きネットワーク
- Authors: Mathieu Reymond, Eugenio Bargiacchi, Ann Now\'e
- Abstract要約: 本稿では,すべての非支配的ポリシーを包含するために,単一ニューラルネットワークを用いる手法を提案する。
PCNは過去の移行とエピソードのリターンを関連付け、ネットワークをトレーニングする。
提案手法は教師付き方式で学習することで安定しており,移動目標問題を回避することができる。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-objective optimization, learning all the policies that reach
Pareto-efficient solutions is an expensive process. The set of optimal policies
can grow exponentially with the number of objectives, and recovering all
solutions requires an exhaustive exploration of the entire state space. We
propose Pareto Conditioned Networks (PCN), a method that uses a single neural
network to encompass all non-dominated policies. PCN associates every past
transition with its episode's return. It trains the network such that, when
conditioned on this same return, it should reenact said transition. In doing so
we transform the optimization problem into a classification problem. We recover
a concrete policy by conditioning the network on the desired Pareto-efficient
solution. Our method is stable as it learns in a supervised fashion, thus
avoiding moving target issues. Moreover, by using a single network, PCN scales
efficiently with the number of objectives. Finally, it makes minimal
assumptions on the shape of the Pareto front, which makes it suitable to a
wider range of problems than previous state-of-the-art multi-objective
reinforcement learning algorithms.
- Abstract(参考訳): 多目的最適化では、pareto効率のよいソリューションに到達するすべてのポリシーを学ぶのは、高価なプロセスです。
最適政策の集合は目的数とともに指数関数的に成長し、全ての解を回収するには、状態空間全体を徹底的に探索する必要がある。
本研究では,1つのニューラルネットワークを用いてすべての非支配ポリシーを包含するPareto Conditioned Networks (PCN)を提案する。
PCNは過去の変遷とエピソードの帰還を関連付けている。
ネットワークをトレーニングすることで、同じリターンで条件付けされた場合、その移行を再現する。
これにより、最適化問題を分類問題に変換する。
我々は,ネットワークを所望のパレート効率のよいソリューションに条件付けすることで,具体的な方針を回復する。
提案手法は教師付き方式で学習することで安定しており,移動目標問題を回避することができる。
さらに、単一のネットワークを使用することで、pcnは目的数で効率的にスケールする。
最後に、paretoフロントの形状に関する仮定を最小にすることで、従来の最先端のマルチ目的強化学習アルゴリズムよりも幅広い問題に適している。
関連論文リスト
- Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Non-orthogonal Age-Optimal Information Dissemination in Vehicular
Networks: A Meta Multi-Objective Reinforcement Learning Approach [0.0]
道路側ユニット(RSU)は、車両に物理プロセスのセットに関するタイムリーな更新を提供する。
定式化問題は多目的混合整数非線形計画問題である。
我々は,各最適化サブプロブレムを解くために,DQN-Deep Deterministic Policy gradient (DDPG)モデルを開発した。
論文 参考訳(メタデータ) (2024-02-15T16:51:47Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning [2.1408617023874443]
本稿では,政策勾配を用いて単一ニューラルネットワークを学習する多目的強化学習(MORL)アルゴリズムを提案する。
提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。
論文 参考訳(メタデータ) (2023-03-15T20:07:48Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Efficient Multi-Objective Optimization for Deep Learning [2.0305676256390934]
マルチオブジェクト最適化(MOO)はディープラーニングの一般的な課題です。
真に深いニューラルネットワークのためのスケーラブルなMOOソリューションはありません。
論文 参考訳(メタデータ) (2021-03-24T17:59:42Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。