論文の概要: On the Geometry of Reinforcement Learning in Continuous State and Action Spaces
- arxiv url: http://arxiv.org/abs/2301.00009v2
- Date: Sat, 10 Aug 2024 19:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:29:38.970857
- Title: On the Geometry of Reinforcement Learning in Continuous State and Action Spaces
- Title(参考訳): 連続状態と行動空間における強化学習の幾何学について
- Authors: Saket Tiwari, Omer Gottesman, George Konidaris,
- Abstract要約: 我々は幾何レンズを用いて連続状態と行動空間の理論的理解を構築する。
遷移力学が高次元名目状態空間に埋め込まれた到達可能な状態の低次元多様体を誘導するという考えを証明する。
この方法で学んだポリシーは、4つの MuJoCo コントロールスイートタスクに対して同等以上のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 18.379081805663798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in reinforcement learning have led to its successful application in complex tasks with continuous state and action spaces. Despite these advances in practice, most theoretical work pertains to finite state and action spaces. We propose building a theoretical understanding of continuous state and action spaces by employing a geometric lens. Central to our work is the idea that the transition dynamics induce a low dimensional manifold of reachable states embedded in the high-dimensional nominal state space. We prove that, under certain conditions, the dimensionality of this manifold is at most the dimensionality of the action space plus one. This is the first result of its kind, linking the geometry of the state space to the dimensionality of the action space. We empirically corroborate this upper bound for four MuJoCo environments. We further demonstrate the applicability of our result by learning a policy in this low dimensional representation. To do so we introduce an algorithm that learns a mapping to a low dimensional representation, as a narrow hidden layer of a deep neural network, in tandem with the policy using DDPG. Our experiments show that a policy learnt this way perform on par or better for four MuJoCo control suite tasks.
- Abstract(参考訳): 強化学習の進歩は、連続した状態と行動空間を持つ複雑なタスクに成功している。
実際にはこれらの進歩にもかかわらず、ほとんどの理論的な研究は有限状態と作用空間に関係している。
幾何レンズを用いて連続状態と行動空間の理論的理解を構築することを提案する。
我々の研究の中心は、遷移力学が高次元名目状態空間に埋め込まれた到達可能な状態の低次元多様体を誘導するという考えである。
我々は、ある条件下では、この多様体の次元性は、作用空間の次元性プラス 1 であることを示す。
これは、状態空間の幾何学と作用空間の次元を結びつける、この種の最初の結果である。
この上限を4つのMuJoCo環境に対して実証的に相関付けします。
この低次元表現でポリシーを学習することで、結果の適用性をさらに実証する。
そこで我々は,DDPGを用いたポリシーに則って,低次元表現へのマッピングを,ディープニューラルネットワークの狭い隠蔽層として学習するアルゴリズムを導入する。
実験の結果,4つの MuJoCo コントロールスイートタスクに対して,この方法で学習したポリシが同等以上のパフォーマンスを示すことがわかった。
関連論文リスト
- Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Space Non-cooperative Object Active Tracking with Deep Reinforcement
Learning [1.212848031108815]
DRLAVTと命名されたDQNアルゴリズムに基づくエンドツーエンドのアクティブなトラッキング手法を提案する。
追尾宇宙船のアプローチを、色やRGBD画像にのみ依存した任意の空間の非協力目標に導くことができる。
位置ベースのビジュアルサーボベースラインアルゴリズムでは、最先端の2DモノクロトラッカーであるSiamRPNをはるかに上回っている。
論文 参考訳(メタデータ) (2021-12-18T06:12:24Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Explicitly Encouraging Low Fractional Dimensional Trajectories Via
Reinforcement Learning [6.548580592686076]
モデル自由強化学習エージェントによって誘導される軌道の次元性は,エージェント報酬信号にポストプロセッシング関数を追加することで影響できることを示す。
システムに付加されるノイズに対して寸法の低減が堅牢であることを検証するとともに, 改良されたエージェントは, 一般に, 騒音や押圧障害に対してより現実的に堅牢であることを示す。
論文 参考訳(メタデータ) (2020-12-21T20:09:17Z) - Reinforcement Learning with Subspaces using Free Energy Paradigm [12.127688327434283]
大規模問題では、標準強化学習アルゴリズムは学習速度が遅い。
サブスペースの選択と状態空間のポリシーをサブスペースに統合する自由エネルギー最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-13T16:21:32Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - DinerDash Gym: A Benchmark for Policy Learning in High-Dimensional
Action Space [30.035087527984345]
本研究では,高次元の動作空間を持つ複雑なタスクにおける性能を評価するために,ダイナー・ダッシュと呼ばれる新しいベンチマークタスクを提案する。
また,グラフモデリングとディープラーニングを併用して,ドメイン知識の明示的な埋め込みを可能にするアルゴリズムであるDecomposed Policy Graph Modelling (DPGM)を導入している。
論文 参考訳(メタデータ) (2020-07-13T06:22:55Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z) - Plan-Space State Embeddings for Improved Reinforcement Learning [12.340412143459869]
提案手法は,計画や他の形態の実証から状態埋め込みを学習するための新しい手法である。
これらの埋め込みは、強化学習問題におけるロボット状態の強化としてどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-04-30T03:38:14Z) - Latent Space Roadmap for Visual Action Planning of Deformable and Rigid
Object Manipulation [74.88956115580388]
プランニングは、イメージを埋め込んだ低次元の潜在状態空間で行われる。
我々のフレームワークは2つの主要なコンポーネントで構成されており、画像のシーケンスとして視覚的な計画を生成するビジュアル・フォレスト・モジュール(VFM)と、それら間のアクションを予測するアクション・プロポーザル・ネットワーク(APN)である。
論文 参考訳(メタデータ) (2020-03-19T18:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。