論文の概要: Multi-Task Option Learning and Discovery for Stochastic Path Planning
- arxiv url: http://arxiv.org/abs/2210.00068v1
- Date: Fri, 30 Sep 2022 19:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:23:50.100425
- Title: Multi-Task Option Learning and Discovery for Stochastic Path Planning
- Title(参考訳): 確率経路計画のためのマルチタスクオプション学習と発見
- Authors: Naman Shah, Siddharth Srivastava
- Abstract要約: 本稿では,長距離経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。
提案手法では,提案したオプションを構成する高レベルパスだけでなく,ポリシによる有用なオプションも計算する。
このアプローチが実行可能性と解決可能性の強い保証をもたらすことを示す。
- 参考スコア(独自算出の注目度): 27.384742641275228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of reliably and efficiently solving broad
classes of long-horizon stochastic path planning problems. Starting with a
vanilla RL formulation with a stochastic dynamics simulator and an occupancy
matrix of the environment, our approach computes useful options with policies
as well as high-level paths that compose the discovered options.
Our main contributions are (1) data-driven methods for creating abstract
states that serve as endpoints for helpful options, (2) methods for computing
option policies using auto-generated option guides in the form of dense
pseudo-reward functions, and (3) an overarching algorithm for composing the
computed options. We show that this approach yields strong guarantees of
executability and solvability: under fairly general conditions, the computed
option guides lead to composable option policies and consequently ensure
downward refinability. Empirical evaluation on a range of robots, environments,
and tasks shows that this approach effectively transfers knowledge across
related tasks and that it outperforms existing approaches by a significant
margin.
- Abstract(参考訳): 本稿では,長軸確率経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。
確率力学シミュレータと環境の占有行列を用いたバニラRLの定式化から始めると,提案手法は,提案した選択肢を構成する高レベルパスだけでなく,ポリシーを用いた有用な選択肢を計算できる。
提案手法は,(1)有用オプションのエンドポイントとして機能する抽象状態生成のためのデータ駆動手法,(2)高密度擬似ワード関数による自動生成オプションガイドを用いたオプションポリシーの計算方法,(3)計算されたオプションを構成する包括的アルゴリズムである。
比較的一般的な条件下では、計算されたオプションガイドは構成可能なオプションポリシーをもたらし、結果として下方修正性を保証する。
様々なロボット、環境、タスクに対する実証的な評価は、このアプローチが関連するタスク間で知識を効果的に伝達し、既存のアプローチを著しく上回っていることを示している。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - An Efficient Learning-Based Solver for Two-Stage DC Optimal Power Flow with Feasibility Guarantees [4.029937264494929]
本稿では,より効率的かつ最適な方法で2段階問題の解法を提案する。
ゲージマップと呼ばれるテクニックが学習アーキテクチャ設計に組み込まれ、学習したソリューションがネットワークの制約に対して実現可能であることを保証する。
論文 参考訳(メタデータ) (2023-04-03T22:56:08Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - A Reinforcement Learning Approach to the Stochastic Cutting Stock
Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。
最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文 参考訳(メタデータ) (2021-09-20T14:47:54Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Data-efficient Hindsight Off-policy Option Learning [20.42535406663446]
データ効率のよいオプション学習アルゴリズムであるHendsight Off-policy Options (HO2)を導入する。
それは、すべての政策コンポーネントを、政治とエンドツーエンドで堅牢に訓練する。
このアプローチは、一般的なベンチマークで既存のオプション学習方法よりも優れています。
論文 参考訳(メタデータ) (2020-07-30T16:52:33Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。