論文の概要: Weakly Coupled Deep Q-Networks
- arxiv url: http://arxiv.org/abs/2310.18803v1
- Date: Sat, 28 Oct 2023 20:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:31:11.479065
- Title: Weakly Coupled Deep Q-Networks
- Title(参考訳): 弱結合型ディープqネットワーク
- Authors: Ibrahim El Shar, Daniel R. Jiang
- Abstract要約: 弱結合マルコフ決定過程(WCMDP)の性能を向上させる新しい深層強化学習アルゴリズムを提案する。
WCDQNは、複数のDQN"サブエージェント"を訓練するために1つのネットワークを使用し、各サブプロブレムに対して1つを訓練し、それらのソリューションを組み合わせて最適なアクション値の上限を確立する。
- 参考スコア(独自算出の注目度): 5.76924666595801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose weakly coupled deep Q-networks (WCDQN), a novel deep reinforcement
learning algorithm that enhances performance in a class of structured problems
called weakly coupled Markov decision processes (WCMDP). WCMDPs consist of
multiple independent subproblems connected by an action space constraint, which
is a structural property that frequently emerges in practice. Despite this
appealing structure, WCMDPs quickly become intractable as the number of
subproblems grows. WCDQN employs a single network to train multiple DQN
"subagents", one for each subproblem, and then combine their solutions to
establish an upper bound on the optimal action value. This guides the main DQN
agent towards optimality. We show that the tabular version, weakly coupled
Q-learning (WCQL), converges almost surely to the optimal action value.
Numerical experiments show faster convergence compared to DQN and related
techniques in settings with as many as 10 subproblems, $3^{10}$ total actions,
and a continuous state space.
- Abstract(参考訳): 本稿では,弱結合型マルコフ決定過程 (WCMDP) と呼ばれる構造化問題のクラスにおける性能を向上させる新しい深層強化学習アルゴリズムである弱結合型深部Q-networks (WCDQN) を提案する。
WCMDPは、アクション空間制約によって接続された複数の独立したサブプロブレムから構成される。
この魅力ある構造にもかかわらず、WCMDPはサブプロブレムの数が増加するにつれて急速に魅力的になる。
WCDQNは、複数のDQN"サブエージェント"を訓練するために単一のネットワークを使用し、各サブプロブレムに対して1つを訓練し、それらのソリューションを組み合わせて最適なアクション値の上限を確立する。
これは主要なDQNエージェントを最適性へ導く。
表形式の弱結合q-learning(wcql)は,ほぼ確実に最適なアクション値に収束することを示す。
数値実験により、DQNと関連する10サブプロブレム、$3^{10}$トータルアクション、および連続状態空間の設定において、DQNとより高速な収束を示す。
関連論文リスト
- Differentiation Through Black-Box Quadratic Programming Solvers [16.543673072027136]
我々は,任意の2次プログラミング(QP)ソルバに対して,プラグアンドプレイの微分を可能にするモジュール型フレームワークであるdQPを紹介する。
我々の解は、QP最適化におけるアクティブ制約セットの知識が明示的な微分を可能にするというコア理論的知見に基づいている。
我々の実装は公開され、15以上の最先端QP解決器をサポートする既存のフレームワークとインターフェースします。
論文 参考訳(メタデータ) (2024-10-08T20:01:39Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - Q-SHED: Distributed Optimization at the Edge via Hessian Eigenvectors
Quantization [5.404315085380945]
ニュートン型(NT)法は、DO問題における堅牢な収束率の実現要因として提唱されている。
インクリメンタルなヘッセン固有ベクトル量子化に基づく新しいビット割り当て方式を特徴とする、DOのための元のNTアルゴリズムであるQ-SHEDを提案する。
Q-SHEDはコンバージェンスに必要な通信ラウンド数を最大60%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:15:03Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - A Convergent and Efficient Deep Q Network Algorithm [3.553493344868414]
深部Qネットワーク(DQN)強化学習アルゴリズムは,現実的な環境での動作を多様化し,停止することができることを示す。
本稿では,DQNを慎重に修正した収束DQNアルゴリズム(C-DQN)を提案する。
難しい環境でしっかりと学習し、Atari 2600ベンチマークでいくつかの難しいゲームを学ぶことができる。
論文 参考訳(メタデータ) (2021-06-29T13:38:59Z) - Joint Deep Reinforcement Learning and Unfolding: Beam Selection and
Precoding for mmWave Multiuser MIMO with Lens Arrays [54.43962058166702]
離散レンズアレイを用いたミリ波マルチユーザマルチインプット多重出力(MU-MIMO)システムに注目が集まっている。
本研究では、DLA を用いた mmWave MU-MIMO システムのビームプリコーディング行列の共同設計について検討する。
論文 参考訳(メタデータ) (2021-01-05T03:55:04Z) - Deep Q-Network Based Multi-agent Reinforcement Learning with Binary
Action Agents [1.8782750537161614]
強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。
共有状態と報酬を用いたRLのための単純だが効率的なDQNベースのMASを提案する。
このアプローチの利点は、従来のDQNベースのアプローチと比較して、全体的な単純さ、より高速な収束、より良いパフォーマンスである。
論文 参考訳(メタデータ) (2020-08-06T15:16:05Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。