論文の概要: Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions
- arxiv url: http://arxiv.org/abs/2410.11833v1
- Date: Tue, 15 Oct 2024 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:42.964885
- Title: Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions
- Title(参考訳): 複素Q-関数における決定論的政策勾配の準最適化
- Authors: Ayush Jain, Norio Kosaka, Xinhu Li, Kyung-Min Kim, Erdem Bıyık, Joseph J. Lim,
- Abstract要約: 強化学習では、DDPGやTD3のような非政治的アクター批判的アプローチは決定論的政策勾配に基づいている。
i) 複数のアクターを用いてQ値の最大化動作を評価すること,(ii)勾配法で最適化し易いQ値関数を学習すること,の2つの単純な知見を組み合わせた新しいアクタアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 18.643104368680593
- License:
- Abstract: In reinforcement learning, off-policy actor-critic approaches like DDPG and TD3 are based on the deterministic policy gradient. Herein, the Q-function is trained from off-policy environment data and the actor (policy) is trained to maximize the Q-function via gradient ascent. We observe that in complex tasks like dexterous manipulation and restricted locomotion, the Q-value is a complex function of action, having several local optima or discontinuities. This poses a challenge for gradient ascent to traverse and makes the actor prone to get stuck at local optima. To address this, we introduce a new actor architecture that combines two simple insights: (i) use multiple actors and evaluate the Q-value maximizing action, and (ii) learn surrogates to the Q-function that are simpler to optimize with gradient-based methods. We evaluate tasks such as restricted locomotion, dexterous manipulation, and large discrete-action space recommender systems and show that our actor finds optimal actions more frequently and outperforms alternate actor architectures.
- Abstract(参考訳): 強化学習では、DDPGやTD3のような非政治的アクター批判的アプローチは決定論的政策勾配に基づいている。
ここで、Q関数は、非政治環境データから訓練され、アクター(政治)は、勾配上昇によるQ関数の最大化のために訓練される。
厳密な操作や制限された移動のような複雑なタスクでは、Q-値が作用の複雑な関数であり、いくつかの局所的な最適性や不連続性を持つことが観察される。
これは、勾配の上昇が横切ることへの挑戦であり、俳優は地元のオプティマで立ち往生する傾向がある。
これを解決するために、私たちは2つの単純な洞察を組み合わせた新しいアクターアーキテクチャを導入しました。
(i)複数のアクターを用いて、Q値の最大化動作を評価し、
(II)勾配法で最適化し易いQ関数の代用を学習する。
我々は,制限された移動,器用な操作,大規模な離散行動空間レコメンダシステムなどのタスクを評価し,アクターが最適な行動をより頻繁に発見し,代替のアクターアーキテクチャより優れていることを示す。
関連論文リスト
- OIL-AD: An Anomaly Detection Framework for Sequential Decision Sequences [16.828732283348817]
オフライン学習に基づく異常検出(OIL-AD)と呼ばれる教師なし手法を提案する。
OIL-ADは2つの抽出された行動特徴(行動最適性と順序関連)を用いて、意思決定シーケンスの異常を検出する。
実験の結果,OIL-ADはF1スコアを最大34.8%向上し,優れたオンライン異常検出性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-07T04:06:53Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Recomposing the Reinforcement Learning Building Blocks with
Hypernetworks [19.523737925041278]
一次ネットワークが条件付き動的ネットワークの重みを決定することを示す。
このアプローチは勾配近似を改善し、学習ステップの分散を低減する。
我々は、RL(TD3とSAC)とMeta-RL(MAMLとPEARL)の両方において、異なる移動タスクと異なるアルゴリズムで一貫した改善を示す。
論文 参考訳(メタデータ) (2021-06-12T19:43:12Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2020-08-04T17:21:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。