Fugu-MT 論文翻訳(概要): Multi-Task Option Learning and Discovery for Stochastic Path Planning

論文の概要: Multi-Task Option Learning and Discovery for Stochastic Path Planning

arxiv url: http://arxiv.org/abs/2210.00068v1
Date: Fri, 30 Sep 2022 19:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 14:23:50.100425
Title: Multi-Task Option Learning and Discovery for Stochastic Path Planning
Title（参考訳）: 確率経路計画のためのマルチタスクオプション学習と発見
Authors: Naman Shah, Siddharth Srivastava
Abstract要約: 本稿では,長距離経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。提案手法では,提案したオプションを構成する高レベルパスだけでなく,ポリシによる有用なオプションも計算する。このアプローチが実行可能性と解決可能性の強い保証をもたらすことを示す。
参考スコア（独自算出の注目度）: 27.384742641275228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the problem of reliably and efficiently solving broad classes of long-horizon stochastic path planning problems. Starting with a vanilla RL formulation with a stochastic dynamics simulator and an occupancy matrix of the environment, our approach computes useful options with policies as well as high-level paths that compose the discovered options. Our main contributions are (1) data-driven methods for creating abstract states that serve as endpoints for helpful options, (2) methods for computing option policies using auto-generated option guides in the form of dense pseudo-reward functions, and (3) an overarching algorithm for composing the computed options. We show that this approach yields strong guarantees of executability and solvability: under fairly general conditions, the computed option guides lead to composable option policies and consequently ensure downward refinability. Empirical evaluation on a range of robots, environments, and tasks shows that this approach effectively transfers knowledge across related tasks and that it outperforms existing approaches by a significant margin.
Abstract（参考訳）: 本稿では,長軸確率経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。確率力学シミュレータと環境の占有行列を用いたバニラRLの定式化から始めると,提案手法は,提案した選択肢を構成する高レベルパスだけでなく,ポリシーを用いた有用な選択肢を計算できる。提案手法は,(1)有用オプションのエンドポイントとして機能する抽象状態生成のためのデータ駆動手法,(2)高密度擬似ワード関数による自動生成オプションガイドを用いたオプションポリシーの計算方法,(3)計算されたオプションを構成する包括的アルゴリズムである。比較的一般的な条件下では、計算されたオプションガイドは構成可能なオプションポリシーをもたらし、結果として下方修正性を保証する。様々なロボット、環境、タスクに対する実証的な評価は、このアプローチが関連するタスク間で知識を効果的に伝達し、既存のアプローチを著しく上回っていることを示している。

関連論文リスト

Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
An Efficient Learning-Based Solver for Two-Stage DC Optimal Power Flow with Feasibility Guarantees [4.029937264494929]
本稿では,より効率的かつ最適な方法で2段階問題の解法を提案する。ゲージマップと呼ばれるテクニックが学習アーキテクチャ設計に組み込まれ、学習したソリューションがネットワークの制約に対して実現可能であることを保証する。
論文参考訳（メタデータ） (2023-04-03T22:56:08Z)
Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文参考訳（メタデータ） (2023-01-31T12:40:50Z)
Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。 Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文参考訳（メタデータ） (2022-11-15T03:46:41Z)
A Reinforcement Learning Approach to the Stochastic Cutting Stock Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文参考訳（メタデータ） (2021-09-20T14:47:54Z)
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。 2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文参考訳（メタデータ） (2021-06-06T23:53:31Z)
Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文参考訳（メタデータ） (2021-03-22T03:16:33Z)
Data-efficient Hindsight Off-policy Option Learning [20.42535406663446]
データ効率のよいオプション学習アルゴリズムであるHendsight Off-policy Options (HO2)を導入する。それは、すべての政策コンポーネントを、政治とエンドツーエンドで堅牢に訓練する。このアプローチは、一般的なベンチマークで既存のオプション学習方法よりも優れています。
論文参考訳（メタデータ） (2020-07-30T16:52:33Z)
SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文参考訳（メタデータ） (2020-06-25T13:06:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。