論文の概要: Geometry of Neural Reinforcement Learning in Continuous State and Action Spaces
- arxiv url: http://arxiv.org/abs/2507.20853v1
- Date: Mon, 28 Jul 2025 14:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.147048
- Title: Geometry of Neural Reinforcement Learning in Continuous State and Action Spaces
- Title(参考訳): 連続状態と行動空間におけるニューラル強化学習の幾何学
- Authors: Saket Tiwari, Omer Gottesman, George Konidaris,
- Abstract要約: 我々は幾何レンズを用いて連続状態と行動空間の理論的理解を構築する。
2層型ニューラルポリシーのトレーニング力学は、高次元名目状態空間に埋め込まれた到達可能な状態の低次元多様体を誘導することを示す。
これは、状態空間の幾何学と作用空間の次元を結びつける、この種の最初の結果である。
- 参考スコア(独自算出の注目度): 18.379081805663798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in reinforcement learning (RL) have led to its successful application in complex tasks with continuous state and action spaces. Despite these advances in practice, most theoretical work pertains to finite state and action spaces. We propose building a theoretical understanding of continuous state and action spaces by employing a geometric lens to understand the locally attained set of states. The set of all parametrised policies learnt through a semi-gradient based approach induces a set of attainable states in RL. We show that the training dynamics of a two-layer neural policy induce a low dimensional manifold of attainable states embedded in the high-dimensional nominal state space trained using an actor-critic algorithm. We prove that, under certain conditions, the dimensionality of this manifold is of the order of the dimensionality of the action space. This is the first result of its kind, linking the geometry of the state space to the dimensionality of the action space. We empirically corroborate this upper bound for four MuJoCo environments and also demonstrate the results in a toy environment with varying dimensionality. We also show the applicability of this theoretical result by introducing a local manifold learning layer to the policy and value function networks to improve the performance in control environments with very high degrees of freedom by changing one layer of the neural network to learn sparse representations.
- Abstract(参考訳): 強化学習(RL)の進歩は、連続状態と行動空間を持つ複雑なタスクに成功している。
実際にはこれらの進歩にもかかわらず、ほとんどの理論的な研究は有限状態と作用空間に関係している。
本稿では,局所的に達成された状態の集合を理解するために幾何レンズを用いて連続状態と行動空間の理論的理解を構築することを提案する。
半漸進的なアプローチによって学習された全てのパラメトリドポリシーの集合は、RLにおける到達可能な状態の集合を誘導する。
本研究では,2層型ニューラルポリシーのトレーニング力学により,アクター・クリティック・アルゴリズムを用いて訓練した高次元名目状態空間に埋め込まれた到達可能な状態の低次元多様体を誘導することを示す。
我々は、ある条件下では、この多様体の次元性は作用空間の次元性の順序であることを示す。
これは、状態空間の幾何学と作用空間の次元を結びつける、この種の最初の結果である。
我々は,この上界を4つのMuJoCo環境に対して実証的に相関させ,また,異なる寸法の玩具環境においてその結果を実証する。
また,ニューラルネットワークの一層を変更して疎表現を学習することにより,制御環境の性能を極めて高い自由度で向上させるため,ポリシーと値関数ネットワークに局所多様体学習層を導入することにより,この理論的結果の適用性を示す。
関連論文リスト
- A Gravity-informed Spatiotemporal Transformer for Human Activity Intensity Prediction [38.98706592466946]
本研究は,物理インフォームド・ディープラーニング・フレームワーク,すなわち重力インフォームド・テンポラル・トランス(重力フォーマ)を提案する。
人間の活動の基本的な法則は、提案された適応重力モデルによって明確にモデル化することができる。
6つの実世界の大規模活動データセットの実験は、我々のアプローチが最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-16T16:32:51Z) - Decoupled Hierarchical Reinforcement Learning with State Abstraction for Discrete Grids [3.772834044395258]
本稿では、状態抽象化(DcHRL-SA)を統合した分離階層型RLフレームワークを提案する。
2つのグリッド環境における実験により,提案手法は探索効率,収束速度,累積報酬,政策安定性においてPPOを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-06-01T06:36:19Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Conservation-informed Graph Learning for Spatiotemporal Dynamics Prediction [84.26340606752763]
本稿では,保護インフォームドGNN(CiGNN)について紹介する。
このネットワークは、保守的かつ非保守的な情報が、潜時的行進戦略によって多次元空間を通過する対称性による一般的な対称性保存則に従うように設計されている。
結果は,CiGNNが顕著なベースライン精度と一般化性を示し,様々な時間的ダイナミクスの予測のための学習に容易に適用可能であることを示した。
論文 参考訳(メタデータ) (2024-12-30T13:55:59Z) - On the Geometry of Reinforcement Learning in Continuous State and Action Spaces [18.379081805663798]
我々は幾何レンズを用いて連続状態と行動空間の理論的理解を構築する。
遷移力学が高次元名目状態空間に埋め込まれた到達可能な状態の低次元多様体を誘導するという考えを証明する。
この方法で学んだポリシーは、4つの MuJoCo コントロールスイートタスクに対して同等以上のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-29T18:17:05Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Plan-Space State Embeddings for Improved Reinforcement Learning [12.340412143459869]
提案手法は,計画や他の形態の実証から状態埋め込みを学習するための新しい手法である。
これらの埋め込みは、強化学習問題におけるロボット状態の強化としてどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-04-30T03:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。