論文の概要: Jointly-Learned State-Action Embedding for Efficient Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.04444v4
- Date: Fri, 20 Aug 2021 10:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:28:59.824104
- Title: Jointly-Learned State-Action Embedding for Efficient Reinforcement
Learning
- Title(参考訳): 効率的強化学習のための協調学習型状態動作埋め込み
- Authors: Paul J. Pritz and Liang Ma and Kin K. Leung
- Abstract要約: 本研究では,モデルフリーとモデルベース強化学習の側面を組み合わせた状態と動作の埋め込み学習手法を提案する。
提案手法は,大きな状態/動作空間を持つ離散/連続領域および連続領域において,最先端モデルよりも顕著に優れていることを示す。
- 参考スコア(独自算出の注目度): 8.342863878589332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning has achieved considerable successes in recent
years, state-of-the-art models are often still limited by the size of state and
action spaces. Model-free reinforcement learning approaches use some form of
state representations and the latest work has explored embedding techniques for
actions, both with the aim of achieving better generalization and
applicability. However, these approaches consider only states or actions,
ignoring the interaction between them when generating embedded representations.
In this work, we establish the theoretical foundations for the validity of
training a reinforcement learning agent using embedded states and actions. We
then propose a new approach for jointly learning embeddings for states and
actions that combines aspects of model-free and model-based reinforcement
learning, which can be applied in both discrete and continuous domains.
Specifically, we use a model of the environment to obtain embeddings for states
and actions and present a generic architecture that leverages these to learn a
policy. In this way, the embedded representations obtained via our approach
enable better generalization over both states and actions by capturing
similarities in the embedding spaces. Evaluations of our approach on several
gaming, robotic control, and recommender systems show it significantly
outperforms state-of-the-art models in both discrete/continuous domains with
large state/action spaces, thus confirming its efficacy.
- Abstract(参考訳): 近年では強化学習がかなりの成功を収めているが、現状のモデルは状態空間や行動空間のサイズによって制限されることが多い。
モデルなし強化学習アプローチは状態表現の何らかの形式を使用し、最新の研究は、より一般化と適用性の向上を目的として、アクションの埋め込み技術を探究している。
しかし、これらのアプローチは状態や行動のみを考慮し、埋め込み表現を生成する際の相互作用を無視している。
本研究では,組込み状態と行動を用いた強化学習エージェントの訓練の有効性に関する理論的基礎を確立する。
次に, 離散領域と連続領域の両方に適用可能なモデルフリーとモデルベース強化学習の側面を組み合わせた, 状態と動作の組込みを共同学習するための新しいアプローチを提案する。
具体的には、環境モデルを用いて状態と動作の埋め込みを取得し、これらを利用してポリシーを学習する汎用アーキテクチャを提案する。
このようにして、このアプローチによって得られる埋め込み表現は、埋め込み空間の類似性を捉えることにより、状態とアクションの両方に対してより良い一般化を可能にする。
いくつかのゲーム、ロボット制御、リコメンデータシステムに対する我々のアプローチの評価は、大きな状態/アクション空間を持つ離散/連続両方の領域において、最先端モデルよりも大幅に優れており、その有効性を確認している。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - State Representation Learning for Goal-Conditioned Reinforcement
Learning [9.162936410696407]
本稿では,報酬のないマルコフ決定過程に対する新しい状態表現を提案する。
自己監督的な方法で、組込み状態のペア間の埋め込み空間は、それらの間の遷移に必要な最小のアクション数に対応する。
我々は、この表現がどのようにしてゴール条件付きポリシーを学ぶことができるかを示す。
論文 参考訳(メタデータ) (2022-05-04T09:20:09Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - Universal Value Density Estimation for Imitation Learning and
Goal-Conditioned Reinforcement Learning [5.406386303264086]
いずれの場合も、効果的な解法は、エージェントが指定された状態に確実に到達する必要がある。
この研究は、密度推定の最近の進歩を利用して、与えられた状態に到達することを効果的に学習するアプローチを導入する。
最初のコントリビューションとして、この手法を目標条件付き強化学習に使用し、それが効率的であり、ドメインの後方偏見に支障を来さないことを示す。
第2のコントリビューションとして、模倣学習へのアプローチを拡張し、標準的なベンチマークタスクにおける最先端のサンプル効率を実現することを示す。
論文 参考訳(メタデータ) (2020-02-15T23:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。