論文の概要: Deep W-Networks: Solving Multi-Objective Optimisation Problems With Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.04813v1
- Date: Wed, 9 Nov 2022 11:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:59:07.596651
- Title: Deep W-Networks: Solving Multi-Objective Optimisation Problems With Deep
Reinforcement Learning
- Title(参考訳): Deep W-Networks: 深層強化学習による多目的最適化問題の解決
- Authors: Jernej Hribar and Luke Hackett and Ivana Dusparic
- Abstract要約: 我々は、DQN(Deep Q-Networks)アプローチによって導入された進歩に基づいて、Wラーニングアルゴリズムを大規模状態空間に拡張する。
我々は,深海宝と多目的マウンテンカーという,広く受け入れられている2つの多目的RLベンチマークにおいて,Deep W-Networks (DWN) アプローチの有効性を評価した。
- 参考スコア(独自算出の注目度): 2.65558931169264
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we build on advances introduced by the Deep Q-Networks (DQN)
approach to extend the multi-objective tabular Reinforcement Learning (RL)
algorithm W-learning to large state spaces. W-learning algorithm can naturally
solve the competition between multiple single policies in multi-objective
environments. However, the tabular version does not scale well to environments
with large state spaces. To address this issue, we replace underlying Q-tables
with DQN, and propose an addition of W-Networks, as a replacement for tabular
weights (W) representations. We evaluate the resulting Deep W-Networks (DWN)
approach in two widely-accepted multi-objective RL benchmarks: deep sea
treasure and multi-objective mountain car. We show that DWN solves the
competition between multiple policies while outperforming the baseline in the
form of a DQN solution. Additionally, we demonstrate that the proposed
algorithm can find the Pareto front in both tested environments.
- Abstract(参考訳): 本稿では,多目的タブ型強化学習(RL)アルゴリズムを大規模状態空間に拡張するために,Deep Q-Networks (DQN) アプローチが導入した進歩に基づいて構築する。
Wラーニングアルゴリズムは、多目的環境における複数の単一ポリシー間の競合を自然に解決することができる。
しかし、表形式のバージョンは大きな状態空間を持つ環境にはうまくスケールしない。
この問題に対処するため、基礎となるqテーブルをdqnに置き換え、表重み(w)表現の代替としてwネットワークの追加を提案する。
我々は,深海宝と多目的マウンテンカーという,広く受け入れられている2つの多目的RLベンチマークにおいて,Deep W-Networks(DWN)アプローチの有効性を評価する。
DWNは、DQNソリューションの形でベースラインを上回りながら、複数のポリシー間の競合を解決する。
さらに,提案アルゴリズムは両テスト環境でParetoフロントを見つけることができることを示した。
関連論文リスト
- Weakly Coupled Deep Q-Networks [5.76924666595801]
弱結合マルコフ決定過程(WCMDP)の性能を向上させる新しい深層強化学習アルゴリズムを提案する。
WCDQNは、複数のDQN"サブエージェント"を訓練するために1つのネットワークを使用し、各サブプロブレムに対して1つを訓練し、それらのソリューションを組み合わせて最適なアクション値の上限を確立する。
論文 参考訳(メタデータ) (2023-10-28T20:07:57Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Hierarchical Multi-Marginal Optimal Transport for Network Alignment [52.206006379563306]
マルチネットワークアライメントは,複数ネットワーク上での協調学習に必須の要件である。
マルチネットワークアライメントのための階層型マルチマージ最適トランスポートフレームワークHOTを提案する。
提案するHOTは,有効性とスケーラビリティの両面で,最先端の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-10-06T02:35:35Z) - Multi Agent DeepRL based Joint Power and Subchannel Allocation in IAB
networks [0.0]
統合アクセスとバックハウリング(IRL)は、将来の世代におけるより高いデータレートに対する前例のない要求を満たすための、実行可能なアプローチである。
本稿では,分数ノードに付随する巨大なアクション空間の問題を,Deep Q-Learning Networkを用いて処理する方法を示す。
論文 参考訳(メタデータ) (2023-08-31T21:30:25Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Pareto Conditioned Networks [1.7188280334580197]
本稿では,すべての非支配的ポリシーを包含するために,単一ニューラルネットワークを用いる手法を提案する。
PCNは過去の移行とエピソードのリターンを関連付け、ネットワークをトレーニングする。
提案手法は教師付き方式で学習することで安定しており,移動目標問題を回避することができる。
論文 参考訳(メタデータ) (2022-04-11T12:09:51Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - DeepSlicing: Deep Reinforcement Learning Assisted Resource Allocation
for Network Slicing [20.723527476555574]
ネットワークスライシングにより、同じ物理インフラストラクチャ上で複数の仮想ネットワークが動作し、5G以降のさまざまなユースケースをサポートすることができる。
これらのユースケースには、通信や計算、レイテンシやスループットといったさまざまなパフォーマンス指標など、非常に多様なネットワークリソース要求があります。
乗算器の交互方向法(ADMM)と深部強化学習(DRL)を統合したDeepSlicingを提案する。
論文 参考訳(メタデータ) (2020-08-17T20:52:19Z) - Recursive Multi-model Complementary Deep Fusion forRobust Salient Object
Detection via Parallel Sub Networks [62.26677215668959]
完全畳み込みネットワークは、正体検出(SOD)分野において優れた性能を示している。
本稿では,全く異なるネットワークアーキテクチャを持つ並列サブネットワークからなる,より広いネットワークアーキテクチャを提案する。
いくつかの有名なベンチマークの実験では、提案されたより広範なフレームワークの優れた性能、優れた一般化、強力な学習能力が明らかに示されている。
論文 参考訳(メタデータ) (2020-08-07T10:39:11Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。