論文の概要: Autonomous sPOMDP Environment Modeling With Partial Model Exploitation
- arxiv url: http://arxiv.org/abs/2012.12203v1
- Date: Tue, 22 Dec 2020 17:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:25:35.319849
- Title: Autonomous sPOMDP Environment Modeling With Partial Model Exploitation
- Title(参考訳): 部分モデル活用による自律的なspmdp環境モデリング
- Authors: Andrew Wilhelm, Aaron Wilhelm, Garrett Fosdick
- Abstract要約: 独自のサプライズに基づく部分観測可能なマルコフ決定過程(sPOMDP)を拡張した新しい状態空間探索アルゴリズムを提案する。
提案手法は,学習速度が31~63%向上した元のsPOMDP学習手法の効率性とスケーラビリティを著しく向上することを示す。
以上の結果から,SPOMDPソリューションをより広い環境に拡張する道を開いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A state space representation of an environment is a classic and yet powerful
tool used by many autonomous robotic systems for efficient and often optimal
solution planning. However, designing these representations with high
performance is laborious and costly, necessitating an effective and versatile
tool for autonomous generation of state spaces for autonomous robots. We
present a novel state space exploration algorithm by extending the original
surprise-based partially-observable Markov Decision Processes (sPOMDP), and
demonstrate its effective long-term exploration planning performance in various
environments. Through extensive simulation experiments, we show the proposed
model significantly increases efficiency and scalability of the original sPOMDP
learning techniques with a range of 31-63% gain in training speed while
improving robustness in environments with less deterministic transitions. Our
results pave the way for extending sPOMDP solutions to a broader set of
environments.
- Abstract(参考訳): 環境の状態空間表現は、多くの自律ロボットシステムが効率的かつしばしば最適なソリューション計画のために使用している古典的で強力なツールである。
しかし、これらの表現を高性能で設計するには、自律ロボットのための自律的な状態空間を生成するための効果的で汎用的なツールが必要である。
本稿では,サプライズに基づく部分観測可能なマルコフ決定プロセス(spomdp)を拡張し,様々な環境における長期探査計画性能を実証する新しい状態空間探索アルゴリズムを提案する。
広範なシミュレーション実験により,本モデルでは,学習速度が31~63%向上し,学習速度が31~63%向上し,学習効率と拡張性が大幅に向上することを示す。
以上の結果から,SPOMDPソリューションをより広い環境に拡張する道を開いた。
関連論文リスト
- Machine Learning-Accelerated Multi-Objective Design of Fractured Geothermal Systems [17.040963667188525]
本稿では, フラクチャードメディアにおける熱水シミュレーションと統合した, 能動学習による進化的多目的最適化アルゴリズムについて報告する。
ALEMO法は従来の進化法に比べて1~2桁の速度(10~100倍)で、必要なシミュレーションを著しく削減することを示した。
論文 参考訳(メタデータ) (2024-11-01T10:39:23Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - MambaLoc: Efficient Camera Localisation via State Space Model [42.85368902409545]
位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。
さまざまなIoTアプリケーションにまたがる信頼性の高い位置決めを実現することは、トレーニングコストの大幅な増加と、密集したデータの必要性により、依然として困難である。
我々は,選択状態空間(SSM)モデルを視覚的ローカライゼーションに革新的に応用し,MambaLocという新しいモデルを導入した。
論文 参考訳(メタデータ) (2024-08-19T03:38:29Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - DREAM: Decentralized Reinforcement Learning for Exploration and
Efficient Energy Management in Multi-Robot Systems [14.266876062352424]
資源制約されたロボットは、しばしばエネルギー不足、不適切なタスク割り当てによる計算能力の不足、動的環境における堅牢性の欠如に悩まされる。
本稿では,マルチロボットシステムにおける探索と効率的なエネルギー管理のための分散強化学習DREAMを紹介する。
論文 参考訳(メタデータ) (2023-09-29T17:43:41Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Scalable Multi-Robot System for Non-myopic Spatial Sampling [9.37678298330157]
本稿では,空間場の非一様サンプリングのためのスケーラブルな分散マルチロボット計画アルゴリズムを提案する。
我々は,複数のロボット間のコミュニケーションがチーム全体のサンプリング性能に与える影響を,独立して分析する。
論文 参考訳(メタデータ) (2021-05-20T20:30:10Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。