論文の概要: Solving Continuous Control via Q-learning
- arxiv url: http://arxiv.org/abs/2210.12566v2
- Date: Mon, 25 Sep 2023 22:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 18:26:58.431999
- Title: Solving Continuous Control via Q-learning
- Title(参考訳): Q-learningによる継続的制御の解決
- Authors: Tim Seyde, Peter Werner, Wilko Schwarting, Igor Gilitschenski, Martin
Riedmiller, Daniela Rus, Markus Wulfmeier
- Abstract要約: 深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
- 参考スコア(独自算出の注目度): 54.05120662838286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there has been substantial success for solving continuous control with
actor-critic methods, simpler critic-only methods such as Q-learning find
limited application in the associated high-dimensional action spaces. However,
most actor-critic methods come at the cost of added complexity: heuristics for
stabilisation, compute requirements and wider hyperparameter search spaces. We
show that a simple modification of deep Q-learning largely alleviates these
issues. By combining bang-bang action discretization with value decomposition,
framing single-agent control as cooperative multi-agent reinforcement learning
(MARL), this simple critic-only approach matches performance of
state-of-the-art continuous actor-critic methods when learning from features or
pixels. We extend classical bandit examples from cooperative MARL to provide
intuition for how decoupled critics leverage state information to coordinate
joint optimization, and demonstrate surprisingly strong performance across a
variety of continuous control tasks.
- Abstract(参考訳): アクタークリティカルな手法による継続的制御の解決には大きな成功があるが、Qラーニングのようなより単純な批判のみの手法は、関連する高次元のアクション空間において限定的な応用しか見つからない。
しかし、ほとんどのアクター-批判的手法は、安定化のためのヒューリスティック、計算要件、より広い超パラメータ探索空間といった複雑さのコストが伴う。
深層q学習の簡単な修正が,これらの問題を軽減していることを示す。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、この単純な批判のみのアプローチは、特徴や画素から学ぶ際に、最先端の連続アクター批判手法のパフォーマンスと一致する。
我々は、協力的なMARLから古典的バンディットの例を拡張し、分離された批評家が状態情報を利用して共同最適化を調整する方法の直観を提供し、様々な連続制御タスクにおいて驚くほど強い性能を示す。
関連論文リスト
- Weakly Supervised Co-training with Swapping Assignments for Semantic
Segmentation [23.318478633472253]
クラスアクティベーションマップ(CAM)は通常、擬似ラベルを生成するために弱教師付きセマンティックセマンティックセグメンテーション(WSSS)で使用される。
我々は、ガイド付きCAMを組み込んだエンドツーエンドWSSSモデルを提案し、CAMをオンラインで同時最適化しながらセグメンテーションモデルを訓練する。
CoSAは、追加の監督を持つものを含む、既存のマルチステージメソッドをすべて上回る、最初のシングルステージアプローチである。
論文 参考訳(メタデータ) (2024-02-27T21:08:23Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement
Learning with Provable Convergence [8.191815417711194]
Deep Actorriticアルゴリズムは、ActorriticとDeep Neural Network(DNN)を組み合わせる
本稿では,一般対話のための単一ループアクタ・クライブアルゴリズムを提案する。
SL-Criticアルゴリズムは、優れた学習近似と優れた性能に収束することを示す。
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through
Memory Sharing of Q-Snapshots [8.610425739792284]
そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-06T16:29:47Z) - Mitigating Gradient Bias in Multi-objective Learning: A Provably
Convergent Stochastic Approach [23.433849165542796]
我々は多目的勾配最適化のための多目的補正法(MoCo)を開発した。
本手法の特長は,非公正勾配を増大させることなく収束を保証できる点である。
論文 参考訳(メタデータ) (2022-10-23T05:54:26Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。