論文の概要: Autonomous sPOMDP Environment Modeling With Partial Model Exploitation
- arxiv url: http://arxiv.org/abs/2012.12203v1
- Date: Tue, 22 Dec 2020 17:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:25:35.319849
- Title: Autonomous sPOMDP Environment Modeling With Partial Model Exploitation
- Title(参考訳): 部分モデル活用による自律的なspmdp環境モデリング
- Authors: Andrew Wilhelm, Aaron Wilhelm, Garrett Fosdick
- Abstract要約: 独自のサプライズに基づく部分観測可能なマルコフ決定過程(sPOMDP)を拡張した新しい状態空間探索アルゴリズムを提案する。
提案手法は,学習速度が31~63%向上した元のsPOMDP学習手法の効率性とスケーラビリティを著しく向上することを示す。
以上の結果から,SPOMDPソリューションをより広い環境に拡張する道を開いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A state space representation of an environment is a classic and yet powerful
tool used by many autonomous robotic systems for efficient and often optimal
solution planning. However, designing these representations with high
performance is laborious and costly, necessitating an effective and versatile
tool for autonomous generation of state spaces for autonomous robots. We
present a novel state space exploration algorithm by extending the original
surprise-based partially-observable Markov Decision Processes (sPOMDP), and
demonstrate its effective long-term exploration planning performance in various
environments. Through extensive simulation experiments, we show the proposed
model significantly increases efficiency and scalability of the original sPOMDP
learning techniques with a range of 31-63% gain in training speed while
improving robustness in environments with less deterministic transitions. Our
results pave the way for extending sPOMDP solutions to a broader set of
environments.
- Abstract(参考訳): 環境の状態空間表現は、多くの自律ロボットシステムが効率的かつしばしば最適なソリューション計画のために使用している古典的で強力なツールである。
しかし、これらの表現を高性能で設計するには、自律ロボットのための自律的な状態空間を生成するための効果的で汎用的なツールが必要である。
本稿では,サプライズに基づく部分観測可能なマルコフ決定プロセス(spomdp)を拡張し,様々な環境における長期探査計画性能を実証する新しい状態空間探索アルゴリズムを提案する。
広範なシミュレーション実験により,本モデルでは,学習速度が31~63%向上し,学習速度が31~63%向上し,学習効率と拡張性が大幅に向上することを示す。
以上の結果から,SPOMDPソリューションをより広い環境に拡張する道を開いた。
関連論文リスト
- Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Generative Modeling with Phase Stochastic Bridges [52.919600985186996]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - DREAM: Decentralized Reinforcement Learning for Exploration and
Efficient Energy Management in Multi-Robot Systems [14.266876062352424]
資源制約されたロボットは、しばしばエネルギー不足、不適切なタスク割り当てによる計算能力の不足、動的環境における堅牢性の欠如に悩まされる。
本稿では,マルチロボットシステムにおける探索と効率的なエネルギー管理のための分散強化学習DREAMを紹介する。
論文 参考訳(メタデータ) (2023-09-29T17:43:41Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Scalable Multi-Robot System for Non-myopic Spatial Sampling [9.37678298330157]
本稿では,空間場の非一様サンプリングのためのスケーラブルな分散マルチロボット計画アルゴリズムを提案する。
我々は,複数のロボット間のコミュニケーションがチーム全体のサンプリング性能に与える影響を,独立して分析する。
論文 参考訳(メタデータ) (2021-05-20T20:30:10Z) - Contextual Latent-Movements Off-Policy Optimization for Robotic
Manipulation Skills [41.140532647789456]
本稿では,低次元非線形潜在力学の獲得のために,実験軌道の扱いに関する新しい考え方を提案する。
LAAMPO (Latent-Movements Policy Optimization) と呼ばれる新しい文脈外RLアルゴリズムを導入する。
LAMPOは、文献における一般的なアプローチに対するサンプル効率のよいポリシーを提供する。
論文 参考訳(メタデータ) (2020-10-26T17:53:30Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。
我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。
提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文 参考訳(メタデータ) (2020-07-30T20:14:42Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。