論文の概要: Equivariant Action Sampling for Reinforcement Learning and Planning
- arxiv url: http://arxiv.org/abs/2412.12237v1
- Date: Mon, 16 Dec 2024 17:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:05.758546
- Title: Equivariant Action Sampling for Reinforcement Learning and Planning
- Title(参考訳): 強化学習と計画のための等価アクションサンプリング
- Authors: Linfeng Zhao, Owen Howell, Xupeng Zhu, Jung Yeon Park, Zhewen Zhang, Robin Walters, Lawson L. S. Wong,
- Abstract要約: 連続制御タスクのための強化学習アルゴリズムは、正確なサンプリングベースのアクション選択を必要とする。
この研究はサンプリングに基づく計画と制御における対称性の保存という課題に対処する。
所望の対称性を強制するアクションサンプリング手法を導入する。
- 参考スコア(独自算出の注目度): 24.423370812881153
- License:
- Abstract: Reinforcement learning (RL) algorithms for continuous control tasks require accurate sampling-based action selection. Many tasks, such as robotic manipulation, contain inherent problem symmetries. However, correctly incorporating symmetry into sampling-based approaches remains a challenge. This work addresses the challenge of preserving symmetry in sampling-based planning and control, a key component for enhancing decision-making efficiency in RL. We introduce an action sampling approach that enforces the desired symmetry. We apply our proposed method to a coordinate regression problem and show that the symmetry aware sampling method drastically outperforms the naive sampling approach. We furthermore develop a general framework for sampling-based model-based planning with Model Predictive Path Integral (MPPI). We compare our MPPI approach with standard sampling methods on several continuous control tasks. Empirical demonstrations across multiple continuous control environments validate the effectiveness of our approach, showcasing the importance of symmetry preservation in sampling-based action selection.
- Abstract(参考訳): 連続制御タスクのための強化学習(RL)アルゴリズムは、正確なサンプリングベースのアクション選択を必要とする。
ロボット操作のような多くのタスクは、固有の問題対称性を含んでいる。
しかし、サンプリングベースのアプローチに対称性を正しく組み込むことは依然として困難である。
この研究は、RLにおける意思決定効率を高める重要な要素であるサンプリングベース計画制御における対称性の保存という課題に対処する。
所望の対称性を強制するアクションサンプリング手法を導入する。
提案手法を座標回帰問題に適用し, 対称性を考慮したサンプリング手法がナイーブサンプリング手法を大幅に上回っていることを示す。
さらに,モデル予測パス積分(MPPI)を用いたサンプルベースモデルベースプランニングのための汎用フレームワークを開発した。
我々はMPPI手法といくつかの連続制御タスクの標準サンプリング手法を比較した。
複数の連続制御環境にまたがる実証実験により,本手法の有効性が検証され,サンプリングに基づく行動選択における対称性の保存の重要性が示された。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - PCA for Point Processes [3.4248731707266264]
本稿では,複製点過程の解析のための新しい統計フレームワークを提案する。
点過程の現実化をランダムな測度として扱うことにより、機能解析の観点を採用する。
主要な理論的貢献は、ランダム測度に対するカルフン・ローブ拡大の確立である。
論文 参考訳(メタデータ) (2024-04-30T15:57:18Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。