論文の概要: Q-Learning in enormous action spaces via amortized approximate
maximization
- arxiv url: http://arxiv.org/abs/2001.08116v1
- Date: Wed, 22 Jan 2020 16:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 17:45:28.807455
- Title: Q-Learning in enormous action spaces via amortized approximate
maximization
- Title(参考訳): 償却近似最大化による巨大行動空間のq学習
- Authors: Tom Van de Wiele, David Warde-Farley, Andriy Mnih and Volodymyr Mnih
- Abstract要約: Amortized Q-learningは、Q-learningの利点を維持しながら、個別の継続的タスクやアクションスペースを処理できる。
AQLは、何千もの独立したアクションで、優れたポリシを効率的に学習することができる。
- 参考スコア(独自算出の注目度): 21.218265731399892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying Q-learning to high-dimensional or continuous action spaces can be
difficult due to the required maximization over the set of possible actions.
Motivated by techniques from amortized inference, we replace the expensive
maximization over all actions with a maximization over a small subset of
possible actions sampled from a learned proposal distribution. The resulting
approach, which we dub Amortized Q-learning (AQL), is able to handle discrete,
continuous, or hybrid action spaces while maintaining the benefits of
Q-learning. Our experiments on continuous control tasks with up to 21
dimensional actions show that AQL outperforms D3PG (Barth-Maron et al, 2018)
and QT-Opt (Kalashnikov et al, 2018). Experiments on structured discrete action
spaces demonstrate that AQL can efficiently learn good policies in spaces with
thousands of discrete actions.
- Abstract(参考訳): Q-ラーニングを高次元あるいは連続的なアクション空間に適用することは、可能なアクションの集合に対する必要最大化のために困難である。
償却推論(amortized inference)のテクニックに動機づけられ、すべてのアクションに対する高価な最大化を、学習された提案ディストリビューションからサンプリングされた可能なアクションの小さなサブセットに対する最大化に置き換えます。
結果として得られたアプローチは、Amortized Q-learning(AQL)を模倣したもので、Q-learningのメリットを維持しながら、離散的、連続的、あるいはハイブリッドなアクションスペースを処理できる。
最大21次元動作による連続制御タスクの実験は、AQLがD3PG(Barth-Maron et al, 2018)とQT-Opt(Kalashnikov et al, 2018)より優れていることを示している。
構造化された離散アクション空間の実験は、AQLが数千の離散アクションを持つ空間で優れたポリシーを効率的に学習できることを示しています。
関連論文リスト
- Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces [52.649077293256795]
連続オフライン強化学習(CORL)は拡散に基づく生涯学習システムにおいて顕著な能力を示した。
本稿では,Vector-Quantized Continual diffuser(VQ-CD)を提案する。
論文 参考訳(メタデータ) (2024-10-21T07:13:45Z) - Grounding Multimodal Large Language Models in Actions [65.88208317380793]
我々はMLLMを異なる実施形態とその関連する行動空間にベストグラウンドする方法について研究する。
連続的な動作に対しては、学習されたトークン化が十分なモデリング精度を実現することが示される。
離散的な動作に対して、これらの動作をMLLMのネイティブな出力トークン空間と意味的に整合させることが、最も高いパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-12T06:12:04Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Adjacency constraint for efficient hierarchical reinforcement learning [25.15808501708926]
目標条件強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間が大きいため、トレーニングの非効率さに悩まされることが多い。
本研究では,高レベル動作空間を現在の状態の隣接する領域$k$-stepに制限することにより,この問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2021-10-30T09:26:45Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。