論文の概要: DinerDash Gym: A Benchmark for Policy Learning in High-Dimensional
Action Space
- arxiv url: http://arxiv.org/abs/2007.06207v1
- Date: Mon, 13 Jul 2020 06:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:28:47.508898
- Title: DinerDash Gym: A Benchmark for Policy Learning in High-Dimensional
Action Space
- Title(参考訳): DinerDash Gym: 高次元アクション空間におけるポリシー学習のベンチマーク
- Authors: Siwei Chen, Xiao Ma, David Hsu
- Abstract要約: 本研究では,高次元の動作空間を持つ複雑なタスクにおける性能を評価するために,ダイナー・ダッシュと呼ばれる新しいベンチマークタスクを提案する。
また,グラフモデリングとディープラーニングを併用して,ドメイン知識の明示的な埋め込みを可能にするアルゴリズムであるDecomposed Policy Graph Modelling (DPGM)を導入している。
- 参考スコア(独自算出の注目度): 30.035087527984345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been arduous to assess the progress of a policy learning algorithm in
the domain of hierarchical task with high dimensional action space due to the
lack of a commonly accepted benchmark. In this work, we propose a new
light-weight benchmark task called Diner Dash for evaluating the performance in
a complicated task with high dimensional action space. In contrast to the
traditional Atari games that only have a flat structure of goals and very few
actions, the proposed benchmark task has a hierarchical task structure and size
of 57 for the action space and hence can facilitate the development of policy
learning in complicated tasks. On top of that, we introduce Decomposed Policy
Graph Modelling (DPGM), an algorithm that combines both graph modelling and
deep learning to allow explicit domain knowledge embedding and achieves
significant improvement comparing to the baseline. In the experiments, we have
shown the effectiveness of the domain knowledge injection via a specially
designed imitation algorithm as well as results of other popular algorithms.
- Abstract(参考訳): 一般的に受け入れられているベンチマークの欠如により、高次元のアクション空間を持つ階層的タスク領域におけるポリシー学習アルゴリズムの進歩を評価するのは難しい。
本研究では,高次元動作空間を持つ複雑なタスクにおける性能を評価するために,ダイナーダッシュと呼ばれる新しい軽量ベンチマークタスクを提案する。
目標の平坦な構造とアクションの少ない従来のアタリゲームとは対照的に、提案したベンチマークタスクは、アクション空間の階層的なタスク構造と57のサイズを持ち、複雑なタスクにおけるポリシー学習の開発を促進することができる。
このアルゴリズムは、グラフモデリングとディープラーニングの両方を組み合わせて、明示的なドメイン知識の埋め込みを可能にし、ベースラインと比較して大幅な改善を達成します。
実験では,特別に設計された模倣アルゴリズムと他の一般的なアルゴリズムの結果を用いて,ドメイン知識注入の有効性を示した。
関連論文リスト
- Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Benchmarking Deep Reinforcement Learning Algorithms for Vision-based
Robotics [11.225021326001778]
本稿では,2つの視覚に基づくロボット工学問題の解法として,最先端の強化学習アルゴリズムのベンチマーク研究を行う。
これらのアルゴリズムの性能は、PyBulletの2つのシミュレーション環境であるKukaDiverseObjectEnvとRacecarZEDGymEnvと比較される。
論文 参考訳(メタデータ) (2022-01-11T22:45:25Z) - UDA-COPE: Unsupervised Domain Adaptation for Category-level Object Pose
Estimation [84.16372642822495]
我々は、textbfUDA-COPEと呼ばれるカテゴリレベルのオブジェクトポーズ推定のための教師なしドメイン適応(UDA)を提案する。
近年のマルチモーダルなUDA手法に触発された提案手法は,教師が指導する自己教師型学習手法を利用して,ターゲットドメインラベルを使わずにポーズ推定ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-11-24T16:00:48Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Continuous Control for Searching and Planning with a Learned Model [5.196149362684628]
計画機能を備えた意思決定エージェントは、Chess、Shogi、Goといった挑戦的なドメインで大きな成功を収めています。
研究者らは環境との相互作用を通じて動的モデルを学ぶことができるMuZeroアルゴリズムを提案した。
提案アルゴリズムは,最先端のモデルフリー深部強化学習アルゴリズムであるソフトアクター・クリティック(SAC)アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-12T19:10:41Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。