論文の概要: Learning Space Partitions for Path Planning
- arxiv url: http://arxiv.org/abs/2106.10544v1
- Date: Sat, 19 Jun 2021 18:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:44:34.119014
- Title: Learning Space Partitions for Path Planning
- Title(参考訳): 経路計画のための空間分割の学習
- Authors: Kevin Yang, Tianjun Zhang, Chris Cummins, Brandon Cui, Benoit Steiner,
Linnan Wang, Joseph E. Gonzalez, Dan Klein, Yuandong Tian
- Abstract要約: PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
- 参考スコア(独自算出の注目度): 54.475949279050596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Path planning, the problem of efficiently discovering high-reward
trajectories, often requires optimizing a high-dimensional and multimodal
reward function. Popular approaches like CEM and CMA-ES greedily focus on
promising regions of the search space and may get trapped in local maxima. DOO
and VOOT balance exploration and exploitation, but use space partitioning
strategies independent of the reward function to be optimized. Recently, LaMCTS
empirically learns to partition the search space in a reward-sensitive manner
for black-box optimization. In this paper, we develop a novel formal regret
analysis for when and why such an adaptive region partitioning scheme works. We
also propose a new path planning method PlaLaM which improves the function
value estimation within each sub-region, and uses a latent representation of
the search space. Empirically, PlaLaM outperforms existing path planning
methods in 2D navigation tasks, especially in the presence of
difficult-to-escape local optima, and shows benefits when plugged into
model-based RL with planning components such as PETS. These gains transfer to
highly multimodal real-world tasks, where we outperform strong baselines in
compiler phase ordering by up to 245% and in molecular design by up to 0.4 on
properties on a 0-1 scale.
- Abstract(参考訳): 経路計画 (path planning) は、高回帰軌道を効率的に発見するための問題であり、しばしば高次元およびマルチモーダル報酬関数の最適化を必要とする。
CEMやCMA-ESのような一般的なアプローチは、検索空間の有望な領域に集中しており、局所的な最大値に閉じ込められる可能性がある。
DOOとVOOTのバランスの探究と利用は可能であるが、報酬関数とは独立して空間分割戦略を用いて最適化する。
最近、lamctsはブラックボックス最適化のために報酬に敏感な方法で検索空間を分割することを経験的に学習する。
本稿では,このような適応領域分割方式が機能する時期と理由について,新しい形式的後悔分析法を提案する。
また,各部分領域における関数値推定を改善する新しい経路計画法PlaMを提案し,探索空間の潜在表現を用いた。
実証的に、PlaLaMは2次元ナビゲーションタスクにおいて既存の経路計画法、特に難解な局所最適点の存在下では優れており、PETSなどの計画コンポーネントでモデルベースRLに接続した場合の利点を示している。
これらのゲインは高度にマルチモーダルな実世界のタスクに転送され、コンパイラのフェーズ順序付けでは245%、分子設計では0-1スケールで最大0.4の強いベースラインを上回ります。
関連論文リスト
- LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - NNPP: A Learning-Based Heuristic Model for Accelerating Optimal Path Planning on Uneven Terrain [5.337162499594818]
本稿では,この縮小された検索空間内でのみ最適な経路をAstarのような基礎アルゴリズムで見つけることができるNNPPモデルを提案する。
NNPPモデルは、多くの事前注釈付き最適経路のデモから、スタート地点とゴール地点に関する情報とマップ表現を学習する。
新規地図上での経路計画のテキストカラー化が可能である。
論文 参考訳(メタデータ) (2023-08-09T08:31:05Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - DDPEN: Trajectory Optimisation With Sub Goal Generation Model [70.36888514074022]
本稿では,エスケープネットワークを用いた微分動的プログラミング(DDPEN)を提案する。
本稿では,環境の入力マップとして,所望の位置とともにコストマップの形で利用する深層モデルを提案する。
このモデルは、目標に導く可能性のある将来の方向を生成し、リアルタイムに実行可能なローカルなミニマを避ける。
論文 参考訳(メタデータ) (2023-01-18T11:02:06Z) - Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
ADVTはモンテカルロ木探索とアクション空間の適応的な離散化と楽観的な最適化を併用する。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは高次元連続行動空間よりも優れ、スケールがかなり優れていることが示されている。
論文 参考訳(メタデータ) (2022-09-13T05:04:49Z) - Multi-objective Optimization by Learning Space Partitions [34.84370438997276]
本稿では,観測サンプルからモデルを学習し,探索空間を分割し,将来性のある領域にフォーカスする,新しい多目的型LaMOOを提案する。
LaMOOは、複数の現実世界のMOOタスクにおいて、強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-10-07T03:56:19Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。