論文の概要: PcLast: Discovering Plannable Continuous Latent States
- arxiv url: http://arxiv.org/abs/2311.03534v1
- Date: Mon, 6 Nov 2023 21:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:54:42.534584
- Title: PcLast: Discovering Plannable Continuous Latent States
- Title(参考訳): PcLast: 計画可能な継続的遅延状態を発見する
- Authors: Anurag Koul, Shivakanth Sujit, Shaoru Chen, Ben Evans, Lili Wu, Byron
Xu, Rajan Chari, Riashat Islam, Raihan Seraj, Yonathan Efroni, Lekan Molu,
Miro Dudik, John Langford, Alex Lamb
- Abstract要約: 目標条件付プランニングは、学習されたリッチな高次元観測の低次元表現から恩恵を受ける。
小型の潜在表現は、変分オートエンコーダや逆ダイナミクスから学習されることが多いが、目標条件の計画では国家の余裕を無視することができる。
本稿では,有効な事前計画のために,到達可能な状態を関連付ける表現を学習する。
- 参考スコア(独自算出の注目度): 25.342650372700348
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Goal-conditioned planning benefits from learned low-dimensional
representations of rich, high-dimensional observations. While compact latent
representations, typically learned from variational autoencoders or inverse
dynamics, enable goal-conditioned planning they ignore state affordances, thus
hampering their sample-efficient planning capabilities. In this paper, we learn
a representation that associates reachable states together for effective onward
planning. We first learn a latent representation with multi-step inverse
dynamics (to remove distracting information); and then transform this
representation to associate reachable states together in $\ell_2$ space. Our
proposals are rigorously tested in various simulation testbeds. Numerical
results in reward-based and reward-free settings show significant improvements
in sampling efficiency, and yields layered state abstractions that enable
computationally efficient hierarchical planning.
- Abstract(参考訳): 目標条件付き計画の利点は、豊富な高次元観測の学習された低次元表現から得られる。
小型の潜在表現は、変分オートエンコーダや逆ダイナミクスから学習されることが多いが、目標条件付き計画では状態の余裕を無視し、サンプル効率のよい計画能力を妨げている。
本稿では,有効な事前計画のために,到達可能な状態を関連付ける表現を学習する。
まず、多段階逆ダイナミクスを持つ潜在表現を学習し(注意をそらす情報を取り除くため)、その表現を$\ell_2$空間で結合可能な状態に変換する。
提案手法は各種シミュレーションテストベッドで厳密に検証されている。
報酬ベースおよび報酬なし設定の数値的な結果はサンプリング効率が大幅に向上し、計算効率の良い階層的計画を可能にする階層化された状態抽象化が得られる。
関連論文リスト
- LLM-SAP: Large Language Model Situational Awareness Based Planning [0.0]
この研究は、大規模言語モデルにおける状況認識に基づく創発的計画能力の評価の先駆者である。
i) 標準化された評価のための新しいベンチマークとメトリクス、(ii) 進捗を加速するためのユニークなデータセット、(iii) 状況に敏感な計画タスクにおいて計画性能を著しく向上させるマルチエージェントスキームの実証に寄与する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Submodular Reinforcement Learning [77.97471858326077]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - PALMER: Perception-Action Loop with Memory for Long-Horizon Planning [1.5469452301122177]
PALMERと呼ばれる汎用計画アルゴリズムを導入する。
Palmerは古典的なサンプリングベースの計画アルゴリズムと学習に基づく知覚表現を組み合わせる。
これにより、表現学習、記憶、強化学習、サンプリングベースの計画の間に、緊密なフィードバックループが生成される。
論文 参考訳(メタデータ) (2022-12-08T22:11:49Z) - Inventing Relational State and Action Abstractions for Effective and
Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。
我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。
学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文 参考訳(メタデータ) (2022-03-17T22:13:09Z) - Differentiable Generalised Predictive Coding [2.868176771215219]
本稿では,脳の機能を内部生成モデルの階層的洗練とみなすニューラルプロセス理論と相反する,微分可能な力学モデルについて述べる。
我々の研究は、勾配に基づく予測符号化の既存の実装を拡張し、非線形状態パラメータ化のためのディープニューラルネットワークを統合することができる。
論文 参考訳(メタデータ) (2021-12-02T22:02:56Z) - Active Learning of Abstract Plan Feasibility [17.689758291966502]
本稿では,タスクに依存しない,好奇心を抱くロボットの探索を通じて,APF予測器を効率的に取得するための能動的学習手法を提案する。
アクティブラーニング戦略において,本システムでは,本システムでより少ないデータから学習できるように,実用不可能なサブシーケンス特性を活用して,候補計画の立案を行う。
物体が一様でない質量分布を持つ積層領域において,本システムは,400個の自己教師による相互作用において,APFモデルの実際のロボット学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-07-01T18:17:01Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Perceive, Predict, and Plan: Safe Motion Planning Through Interpretable
Semantic Representations [81.05412704590707]
本稿では,自動運転車の協調認識,予測,動作計画を行うエンド・ツー・エンドの学習可能なネットワークを提案する。
私たちのネットワークは、人間のデモからエンドツーエンドに学習されます。
論文 参考訳(メタデータ) (2020-08-13T14:40:46Z) - Plan2Vec: Unsupervised Representation Learning by Latent Plans [106.37274654231659]
Plan2vecは、強化学習にインスパイアされた教師なしの表現学習手法である。
Plan2vecは、近距離を用いて画像データセット上に重み付きグラフを構築し、その局所距離を、計画された経路上の経路積分を蒸留することによって、大域的な埋め込みに外挿する。
1つのシミュレーションと2つの実世界の画像データセットに対する Plan2vec の有効性を実証する。
論文 参考訳(メタデータ) (2020-05-07T17:52:23Z) - Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。
以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。
本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T18:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。