論文の概要: Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning
- arxiv url: http://arxiv.org/abs/2207.05018v3
- Date: Mon, 24 Jul 2023 13:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 01:11:29.513342
- Title: Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning
- Title(参考訳): 計画の象徴的行動としての継続的ドメインにおける時間的拡張スキルの学習
- Authors: Jan Achterhold, Markus Krimmel, Joerg Stueckler
- Abstract要約: 長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。
本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
- 参考スコア(独自算出の注目度): 2.642698101441705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Problems which require both long-horizon planning and continuous control
capabilities pose significant challenges to existing reinforcement learning
agents. In this paper we introduce a novel hierarchical reinforcement learning
agent which links temporally extended skills for continuous control with a
forward model in a symbolic discrete abstraction of the environment's state for
planning. We term our agent SEADS for Symbolic Effect-Aware Diverse Skills. We
formulate an objective and corresponding algorithm which leads to unsupervised
learning of a diverse set of skills through intrinsic motivation given a known
state abstraction. The skills are jointly learned with the symbolic forward
model which captures the effect of skill execution in the state abstraction.
After training, we can leverage the skills as symbolic actions using the
forward model for long-horizon planning and subsequently execute the plan using
the learned continuous-action control skills. The proposed algorithm learns
skills and forward models that can be used to solve complex tasks which require
both continuous control and long-horizon planning capabilities with high
success rate. It compares favorably with other flat and hierarchical
reinforcement learning baseline agents and is successfully demonstrated with a
real robot.
- Abstract(参考訳): 長期計画と継続的な制御能力を必要とする問題は、既存の強化学習エージェントにとって大きな課題となる。
本稿では,環境の計画状態の象徴的離散的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
我々はエージェントシーズを象徴的な効果を認識できる多様なスキルと呼ぶ。
我々は,本質的動機づけによる多様なスキルセットの教師なし学習に繋がる客観的かつ対応するアルゴリズムを定式化する。
スキルは、状態抽象化におけるスキル実行の効果をキャプチャする象徴的なフォワードモデルと共同で学習される。
学習後は,フォワードモデルを用いて長期計画を行い,その後,学習した連続行動制御技術を用いて計画を実行する。
提案アルゴリズムは、連続的な制御と長期計画能力の両方を必要とする複雑なタスクを高い成功率で解くために使用できるスキルとフォワードモデルを学習する。
他の平滑で階層的な強化学習ベースラインエージェントと比較し、実ロボットで実演することに成功した。
関連論文リスト
- SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - LEAGUE: Guided Skill Learning and Abstraction for Long-Horizon
Manipulation [16.05029027561921]
タスク・アンド・モーション・プランニングのアプローチは、長期にわたるタスクの解決と一般化に長けている。
彼らは事前に定義されたスキルセットを仮定し、現実世界のアプリケーションを制限する。
本稿ではLEAGUEというタスク計画とスキル学習フレームワークを提案する。
学習スキルは、新しいタスク領域での学習を加速し、物理的なロボットプラットフォームに移行するために再利用できることを示す。
論文 参考訳(メタデータ) (2022-10-23T06:57:05Z) - STAP: Sequencing Task-Agnostic Policies [22.25415946972336]
本稿では,長期的課題を解決するために,操作スキルを訓練し,それらの幾何学的依存関係を計画時に調整するためのシークエンシングタスク非依存ポリシー(STAP)を提案する。
実験により, この目的関数が真理計画の実現可能性に近似していることが示唆された。
タスクプランナが提供したスキルシーケンスの幾何学的実現可能性を評価することで,STAPがタスク計画や動作計画にどのように使えるかを実証する。
論文 参考訳(メタデータ) (2022-10-21T21:09:37Z) - Latent Plans for Task-Agnostic Offline Reinforcement Learning [32.938030244921755]
本研究では,高次元カメラ観測からタスク非依存のロングホライゾンポリシーを学習するための新しい階層的アプローチを提案する。
我々の定式化によって、未確認のスキルの組み合わせを生産し、潜伏したスキルを"ステッチ"することで、時間的に拡張された目標を達成することが可能であることが示される。
実世界の25の異なる操作タスクに対するマルチタスクビズモータポリシーも学習し、模倣学習とオフライン強化学習の両方に優れています。
論文 参考訳(メタデータ) (2022-09-19T12:27:15Z) - Creativity of AI: Hierarchical Planning Model Learning for Facilitating
Deep Reinforcement Learning [19.470693909025798]
シンボリックオプションを備えた新しい深層強化学習フレームワークを導入する。
当社のフレームワークは,政策改善の指針となるループトレーニングを特徴としている。
我々はモンテズマのRevengeとOffice Worldの2つの領域でそれぞれ実験を行っている。
論文 参考訳(メタデータ) (2021-12-18T03:45:28Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。