論文の概要: Solving Continuous Control via Q-learning
- arxiv url: http://arxiv.org/abs/2210.12566v1
- Date: Sat, 22 Oct 2022 22:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:16:49.582218
- Title: Solving Continuous Control via Q-learning
- Title(参考訳): Q-learningによる継続的制御の解決
- Authors: Tim Seyde, Peter Werner, Wilko Schwarting, Igor Gilitschenski, Martin
Riedmiller, Daniela Rus, Markus Wulfmeier
- Abstract要約: 本稿では,Q-ラーニングのような単純な批判のみの手法が連続制御タスクに適用可能であることを示す。
動作の離散化と値分解を組み合わせることで,これらの問題をQ-ラーニングによってほぼ緩和できることを示す。
バンバンアクションでは、この批判のみのアプローチのパフォーマンスは、機能やピクセルから学ぶ際に、最先端の継続的アクター批判手法と一致します。
- 参考スコア(独自算出の注目度): 43.815972802034615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there has been substantial success in applying actor-critic methods to
continuous control, simpler critic-only methods such as Q-learning often remain
intractable in the associated high-dimensional action spaces. However, most
actor-critic methods come at the cost of added complexity: heuristics for
stabilization, compute requirements as well as wider hyperparameter search
spaces. We show that these issues can be largely alleviated via Q-learning by
combining action discretization with value decomposition, framing single-agent
control as cooperative multi-agent reinforcement learning (MARL). With
bang-bang actions, performance of this critic-only approach matches
state-of-the-art continuous actor-critic methods when learning from features or
pixels. We extend classical bandit examples from cooperative MARL to provide
intuition for how decoupled critics leverage state information to coordinate
joint optimization, and demonstrate surprisingly strong performance across a
wide variety of continuous control tasks.
- Abstract(参考訳): 連続的な制御にアクター批判的手法を適用することにはかなり成功したが、Qラーニングのようなより単純な批判のみの手法は、高次元のアクション空間においてしばしば難解である。
しかし、ほとんどのアクター批判的手法は、安定化のためのヒューリスティックス、計算要求、より広いハイパーパラメータ検索空間といった複雑さのコストがかかる。
これらの問題は, 行動離散化と値分解を組み合わせ, 協調型マルチエージェント強化学習 (MARL) として単一エージェント制御をフレーミングすることにより, Q-ラーニングにより大きく緩和できることを示す。
bang-bangアクションでは、この批判のみのアプローチのパフォーマンスは、機能やピクセルから学ぶ場合の最先端の連続的なアクター-批判手法にマッチする。
我々は、協力的なMARLから古典的バンディットの例を拡張して、分離された批評家が状態情報を利用して共同最適化を調整する方法の直観を提供し、様々な連続制御タスクにおいて驚くほど強い性能を示す。
関連論文リスト
- Weakly Supervised Co-training with Swapping Assignments for Semantic
Segmentation [23.318478633472253]
クラスアクティベーションマップ(CAM)は通常、擬似ラベルを生成するために弱教師付きセマンティックセマンティックセグメンテーション(WSSS)で使用される。
我々は、ガイド付きCAMを組み込んだエンドツーエンドWSSSモデルを提案し、CAMをオンラインで同時最適化しながらセグメンテーションモデルを訓練する。
CoSAは、追加の監督を持つものを含む、既存のマルチステージメソッドをすべて上回る、最初のシングルステージアプローチである。
論文 参考訳(メタデータ) (2024-02-27T21:08:23Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement
Learning with Provable Convergence [8.191815417711194]
Deep Actorriticアルゴリズムは、ActorriticとDeep Neural Network(DNN)を組み合わせる
本稿では,一般対話のための単一ループアクタ・クライブアルゴリズムを提案する。
SL-Criticアルゴリズムは、優れた学習近似と優れた性能に収束することを示す。
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through
Memory Sharing of Q-Snapshots [8.610425739792284]
そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-06T16:29:47Z) - Mitigating Gradient Bias in Multi-objective Learning: A Provably
Convergent Stochastic Approach [23.433849165542796]
我々は多目的勾配最適化のための多目的補正法(MoCo)を開発した。
本手法の特長は,非公正勾配を増大させることなく収束を保証できる点である。
論文 参考訳(メタデータ) (2022-10-23T05:54:26Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。