論文の概要: Solving Continuous Control via Q-learning
- arxiv url: http://arxiv.org/abs/2210.12566v1
- Date: Sat, 22 Oct 2022 22:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:16:49.582218
- Title: Solving Continuous Control via Q-learning
- Title(参考訳): Q-learningによる継続的制御の解決
- Authors: Tim Seyde, Peter Werner, Wilko Schwarting, Igor Gilitschenski, Martin
Riedmiller, Daniela Rus, Markus Wulfmeier
- Abstract要約: 本稿では,Q-ラーニングのような単純な批判のみの手法が連続制御タスクに適用可能であることを示す。
動作の離散化と値分解を組み合わせることで,これらの問題をQ-ラーニングによってほぼ緩和できることを示す。
バンバンアクションでは、この批判のみのアプローチのパフォーマンスは、機能やピクセルから学ぶ際に、最先端の継続的アクター批判手法と一致します。
- 参考スコア(独自算出の注目度): 43.815972802034615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there has been substantial success in applying actor-critic methods to
continuous control, simpler critic-only methods such as Q-learning often remain
intractable in the associated high-dimensional action spaces. However, most
actor-critic methods come at the cost of added complexity: heuristics for
stabilization, compute requirements as well as wider hyperparameter search
spaces. We show that these issues can be largely alleviated via Q-learning by
combining action discretization with value decomposition, framing single-agent
control as cooperative multi-agent reinforcement learning (MARL). With
bang-bang actions, performance of this critic-only approach matches
state-of-the-art continuous actor-critic methods when learning from features or
pixels. We extend classical bandit examples from cooperative MARL to provide
intuition for how decoupled critics leverage state information to coordinate
joint optimization, and demonstrate surprisingly strong performance across a
wide variety of continuous control tasks.
- Abstract(参考訳): 連続的な制御にアクター批判的手法を適用することにはかなり成功したが、Qラーニングのようなより単純な批判のみの手法は、高次元のアクション空間においてしばしば難解である。
しかし、ほとんどのアクター批判的手法は、安定化のためのヒューリスティックス、計算要求、より広いハイパーパラメータ検索空間といった複雑さのコストがかかる。
これらの問題は, 行動離散化と値分解を組み合わせ, 協調型マルチエージェント強化学習 (MARL) として単一エージェント制御をフレーミングすることにより, Q-ラーニングにより大きく緩和できることを示す。
bang-bangアクションでは、この批判のみのアプローチのパフォーマンスは、機能やピクセルから学ぶ場合の最先端の連続的なアクター-批判手法にマッチする。
我々は、協力的なMARLから古典的バンディットの例を拡張して、分離された批評家が状態情報を利用して共同最適化を調整する方法の直観を提供し、様々な連続制御タスクにおいて驚くほど強い性能を示す。
関連論文リスト
- Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions [18.643104368680593]
強化学習では、DDPGやTD3のような非政治的アクター批判的アプローチは決定論的政策勾配に基づいている。
i) 複数のアクターを用いてQ値の最大化動作を評価すること,(ii)勾配法で最適化し易いQ値関数を学習すること,の2つの単純な知見を組み合わせた新しいアクタアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-15T17:58:03Z) - Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Mitigating Gradient Bias in Multi-objective Learning: A Provably Convergent Stochastic Approach [38.76462300149459]
我々は多目的勾配最適化のための多目的補正法(MoCo)を開発した。
本手法の特長は,非公正勾配を増大させることなく収束を保証できる点である。
論文 参考訳(メタデータ) (2022-10-23T05:54:26Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。