論文の概要: HyAR: Addressing Discrete-Continuous Action Reinforcement Learning via
Hybrid Action Representation
- arxiv url: http://arxiv.org/abs/2109.05490v1
- Date: Sun, 12 Sep 2021 11:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:03:42.024174
- Title: HyAR: Addressing Discrete-Continuous Action Reinforcement Learning via
Hybrid Action Representation
- Title(参考訳): HyAR:ハイブリッド行動表現による離散連続行動強化学習への取り組み
- Authors: Boyan Li, Hongyao Tang, Yan Zheng, Jianye Hao, Pengyi Li, Zhen Wang,
Zhaopeng Meng, Li Wang
- Abstract要約: これまでのReinforcement Learning (RL)は、離散的または連続的なアクション空間による制御の成功を実証するだけであった。
本稿では,Hybrid Action Representation(Hybrid Action Representation, HyAR)を提案する。
離散連続行動空間を持つ様々な環境におけるHyARの評価を行った。
- 参考スコア(独自算出の注目度): 30.621472051415857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete-continuous hybrid action space is a natural setting in many
practical problems, such as robot control and game AI. However, most previous
Reinforcement Learning (RL) works only demonstrate the success in controlling
with either discrete or continuous action space, while seldom take into account
the hybrid action space. One naive way to address hybrid action RL is to
convert the hybrid action space into a unified homogeneous action space by
discretization or continualization, so that conventional RL algorithms can be
applied. However, this ignores the underlying structure of hybrid action space
and also induces the scalability issue and additional approximation
difficulties, thus leading to degenerated results. In this paper, we propose
Hybrid Action Representation (HyAR) to learn a compact and decodable latent
representation space for the original hybrid action space. HyAR constructs the
latent space and embeds the dependence between discrete action and continuous
parameter via an embedding table and conditional Variantional Auto-Encoder
(VAE). To further improve the effectiveness, the action representation is
trained to be semantically smooth through unsupervised environmental dynamics
prediction. Finally, the agent then learns its policy with conventional DRL
algorithms in the learned representation space and interacts with the
environment by decoding the hybrid action embeddings to the original action
space. We evaluate HyAR in a variety of environments with discrete-continuous
action space. The results demonstrate the superiority of HyAR when compared
with previous baselines, especially for high-dimensional action spaces.
- Abstract(参考訳): 離散連続ハイブリッドアクション空間は、ロボット制御やゲームAIなど、多くの実践的な問題において自然な設定である。
しかしながら、これまでのReinforcement Learning (RL) の作業は、離散的または連続的なアクション空間による制御の成功を実証するだけであり、ハイブリッドなアクション空間を考慮することはめったにない。
ハイブリッドアクションRLに対処する方法の1つは、従来のRLアルゴリズムを適用できるように、離散化または連続化によってハイブリッドアクション空間を統一された均一なアクション空間に変換することである。
しかし、これはハイブリッドアクション空間の基盤となる構造を無視し、スケーラビリティの問題と追加の近似の困難を招き、結果として生じる結果に繋がる。
本稿では,ハイブリッドアクション空間のコンパクトかつデコダブルな潜在表現空間を学習するためのハイブリッドアクション表現(hyar)を提案する。
HyARは遅延空間を構築し、個別アクションと連続パラメータの依存性を埋め込みテーブルと条件付きVariantional Auto-Encoder (VAE)を介して埋め込む。
さらに効果を高めるために、非教師なし環境力学予測により、動作表現を意味的に滑らかにするよう訓練する。
最後に、エージェントは学習された表現空間における従来のDRLアルゴリズムとポリシーを学び、元のアクション空間へのハイブリッドアクション埋め込みをデコードすることで環境と相互作用する。
離散連続行動空間を持つ様々な環境におけるHyARの評価を行った。
その結果,HyARが従来のベースライン,特に高次元動作空間と比較して優れていることが示された。
関連論文リスト
- Offline Reinforcement Learning With Combinatorial Action Spaces [12.904199719046968]
強化学習問題はしばしば、複数のサブアクションの同時実行によって生じる大きなアクション空間を伴う。
サブアクションの依存関係を効果的に把握し,各タイミングで少数のアクションのみを評価することを学習することで,大規模空間にスケールする分岐値推定(BVE)を提案する。
実験の結果,BVEは動作空間の幅にまたがって最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-28T15:49:46Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
ADVTはモンテカルロ木探索とアクション空間の適応的な離散化と楽観的な最適化を併用する。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは高次元連続行動空間よりも優れ、スケールがかなり優れていることが示されている。
論文 参考訳(メタデータ) (2022-09-13T05:04:49Z) - Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based
on Maximum Entropy [0.0]
本稿では,ハイブリッドアクション空間におけるマルチエージェント問題に対処するために,深層マルチエージェントハイブリッド・アクター・クリティカル(MAHSAC)を提案する。
このアルゴリズムは、中央集権的なトレーニングであるが、分散実行(CTDE)パラダイムに従い、ハイブリッドアクション空間問題を扱うためにソフトアクター・クリティカルアルゴリズム(SAC)を拡張している。
私たちの経験は、連続的な観察と離散的なアクション空間を持つ、簡単なマルチエージェント粒子の世界と、いくつかの基本的なシミュレートされた物理学で動いています。
論文 参考訳(メタデータ) (2022-06-10T13:52:59Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Generalising Discrete Action Spaces with Conditional Action Trees [0.0]
条件付きアクションツリーを2つの主な目的で紹介します。
離散的なアクション空間を持つ環境から、RTSスタイルのゲームでよく見られる大きなアクション空間を持つ環境まで、いくつかの概念実証実験を示す。
論文 参考訳(メタデータ) (2021-04-15T08:10:18Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Continuous-Discrete Reinforcement Learning for Hybrid Control in
Robotics [21.823173895315605]
本稿では、ハイブリッド強化学習を用いて、ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。
実験では,提案手法がこれらのハイブリッド強化学習問題を効率的に解くことを最初に実証した。
そして、シミュレーションとロボットハードウェアの両方において、専門家が設計した不完全なものを除去する利点が示されます。
論文 参考訳(メタデータ) (2020-01-02T14:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。