論文の概要: PALMER: Perception-Action Loop with Memory for Long-Horizon Planning
- arxiv url: http://arxiv.org/abs/2212.04581v1
- Date: Thu, 8 Dec 2022 22:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:00:34.122599
- Title: PALMER: Perception-Action Loop with Memory for Long-Horizon Planning
- Title(参考訳): PALMER:長期計画のためのメモリ付き知覚行動ループ
- Authors: Onur Beker, Mohammad Mohammadi, Amir Zamir
- Abstract要約: PALMERと呼ばれる汎用計画アルゴリズムを導入する。
Palmerは古典的なサンプリングベースの計画アルゴリズムと学習に基づく知覚表現を組み合わせる。
これにより、表現学習、記憶、強化学習、サンプリングベースの計画の間に、緊密なフィードバックループが生成される。
- 参考スコア(独自算出の注目度): 1.5469452301122177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve autonomy in a priori unknown real-world scenarios, agents should
be able to: i) act from high-dimensional sensory observations (e.g., images),
ii) learn from past experience to adapt and improve, and iii) be capable of
long horizon planning. Classical planning algorithms (e.g. PRM, RRT) are
proficient at handling long-horizon planning. Deep learning based methods in
turn can provide the necessary representations to address the others, by
modeling statistical contingencies between observations. In this direction, we
introduce a general-purpose planning algorithm called PALMER that combines
classical sampling-based planning algorithms with learning-based perceptual
representations. For training these perceptual representations, we combine
Q-learning with contrastive representation learning to create a latent space
where the distance between the embeddings of two states captures how easily an
optimal policy can traverse between them. For planning with these perceptual
representations, we re-purpose classical sampling-based planning algorithms to
retrieve previously observed trajectory segments from a replay buffer and
restitch them into approximately optimal paths that connect any given pair of
start and goal states. This creates a tight feedback loop between
representation learning, memory, reinforcement learning, and sampling-based
planning. The end result is an experiential framework for long-horizon planning
that is significantly more robust and sample efficient compared to existing
methods.
- Abstract(参考訳): 未知の現実世界のシナリオで自律性を達成するには、エージェントは次のようになります。
一 高次元の知覚的観察(画像等)から行うこと。
二 適応し改善するための過去の経験から学ぶこと、及び
三 長い地平線計画を行うことができること。
古典的計画アルゴリズム(例えば、PRM、RTR)は長期計画に精通している。
深層学習に基づく手法は、観測間の統計的一致をモデル化することにより、他に対処するために必要な表現を提供することができる。
本稿では,従来のサンプリングに基づく計画アルゴリズムと学習に基づく知覚表現を組み合わせたPALMERという汎用計画アルゴリズムを提案する。
これらの知覚表現を訓練するために、Q-ラーニングとコントラスト表現学習を組み合わせることで、2つの状態の埋め込み間の距離が、それらの間の最適なポリシーがいかに容易に伝達できるかをキャプチャする潜在空間を作成する。
これらの知覚表現を計画するために、従来のサンプリングベース計画アルゴリズムを用いて、リプレイバッファから観測された軌道セグメントを復元し、任意の開始状態とゴール状態とを接続するほぼ最適な経路に再描画する。
これにより、表現学習、メモリ、強化学習、サンプリングベースの計画の間に、厳密なフィードバックループが生まれます。
結局のところ、従来の手法に比べてはるかに堅牢でサンプル効率のよい長期計画のための実験的なフレームワークである。
関連論文リスト
- Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Representation, learning, and planning algorithms for geometric task and
motion planning [24.862289058632186]
幾何学的課題と運動計画(GTAMP)を導くための学習フレームワークを提案する。
GTAMPはタスクと動作計画のサブクラスであり、複数の物体を可動障害物内の対象領域に移動させることが目的である。
GTAMP問題には、ハイブリッド検索空間と高価なアクション実現可能性チェックが含まれるため、標準グラフ探索アルゴリズムは直接適用されない。
論文 参考訳(メタデータ) (2022-03-09T09:47:01Z) - Integrating Deep Reinforcement and Supervised Learning to Expedite
Indoor Mapping [0.0]
その結果,両手法を組み合わせることで,フロンティアをベースとした移動計画に比べて最大75%のマッピング時間を短縮できることがわかった。
一つは、深層強化学習を用いて、運動プランナーを訓練することである。
2つ目は、事前訓練された生成深部ニューラルネットワークがマップ予測器として機能することである。
論文 参考訳(メタデータ) (2021-09-17T12:07:07Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - Plan2Vec: Unsupervised Representation Learning by Latent Plans [106.37274654231659]
Plan2vecは、強化学習にインスパイアされた教師なしの表現学習手法である。
Plan2vecは、近距離を用いて画像データセット上に重み付きグラフを構築し、その局所距離を、計画された経路上の経路積分を蒸留することによって、大域的な埋め込みに外挿する。
1つのシミュレーションと2つの実世界の画像データセットに対する Plan2vec の有効性を実証する。
論文 参考訳(メタデータ) (2020-05-07T17:52:23Z) - Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。
以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。
本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T18:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。