論文の概要: Learning Abstract World Model for Value-preserving Planning with Options
- arxiv url: http://arxiv.org/abs/2406.15850v1
- Date: Sat, 22 Jun 2024 13:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:15:22.615926
- Title: Learning Abstract World Model for Value-preserving Planning with Options
- Title(参考訳): オプションによる価値保全計画のための抽象世界モデル学習
- Authors: Rafael Rodriguez-Sanchez, George Konidaris,
- Abstract要約: 所与の時間的拡張行動の構造を利用して抽象マルコフ決定過程(MDP)を学習する。
我々は、これらのスキルによる計画が、抽象MDPにおける軌跡をシミュレートすることによって、元のMDPにおける有界値損失のポリシーをもたらすことを確実にするために必要な状態抽象化を特徴付ける。
目標をベースとしたナビゲーション環境では,連続的な抽象状態の計画が成功し,抽象モデル学習が計画と学習のサンプル効率を向上させることを示す。
- 参考スコア(独自算出の注目度): 11.254212901595523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose agents require fine-grained controls and rich sensory inputs to perform a wide range of tasks. However, this complexity often leads to intractable decision-making. Traditionally, agents are provided with task-specific action and observation spaces to mitigate this challenge, but this reduces autonomy. Instead, agents must be capable of building state-action spaces at the correct abstraction level from their sensorimotor experiences. We leverage the structure of a given set of temporally-extended actions to learn abstract Markov decision processes (MDPs) that operate at a higher level of temporal and state granularity. We characterize state abstractions necessary to ensure that planning with these skills, by simulating trajectories in the abstract MDP, results in policies with bounded value loss in the original MDP. We evaluate our approach in goal-based navigation environments that require continuous abstract states to plan successfully and show that abstract model learning improves the sample efficiency of planning and learning.
- Abstract(参考訳): 汎用エージェントは、広範囲なタスクを実行するために、きめ細かい制御とリッチな感覚入力を必要とする。
しかし、この複雑さはしばしば難解な意思決定につながる。
伝統的にエージェントは、この課題を軽減するためにタスク固有のアクションと観察空間を提供するが、これは自律性を低下させる。
その代わり、エージェントは感覚運動経験から適切な抽象化レベルで状態行動空間を構築することができる必要がある。
我々は、時間的および状態的粒度のより高いレベルで動作する抽象マルコフ決定過程(MDP)を学ぶために、時間的拡張された一連の行動の構造を利用する。
我々は、これらのスキルによる計画が、抽象MDPにおける軌跡をシミュレートすることによって、元のMDPにおける有界値損失のポリシーをもたらすことを確実にするために必要な状態抽象化を特徴付ける。
目標をベースとしたナビゲーション環境では,連続的な抽象状態の計画が成功し,抽象モデル学習が計画と学習のサンプル効率を向上させることを示す。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Learning Efficient Abstract Planning Models that Choose What to Predict [28.013014215441505]
多くのロボティクス分野において,既存の記号演算子学習アプローチが不足していることが示されている。
これは主に、抽象状態におけるすべての観測された変化を正確に予測する演算子を学習しようとするためである。
我々は,特定の目標を達成するための抽象的計画に必要な変化をモデル化するだけで,「予測すべきものを選択する」演算子を学習することを提案する。
論文 参考訳(メタデータ) (2022-08-16T13:12:59Z) - Inventing Relational State and Action Abstractions for Effective and
Efficient Bilevel Planning [26.715198108255162]
我々は状態と行動の抽象化を学習するための新しいフレームワークを開発する。
我々は、対象のアイデンティティや数値を一般化するリレーショナル、ニューロシンボリックな抽象化を学ぶ。
学習した抽象化によって、より長い地平線のホールドアウトタスクを迅速に解決できることが示されています。
論文 参考訳(メタデータ) (2022-03-17T22:13:09Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Dynamic probabilistic logic models for effective abstractions in RL [35.54018388244684]
RePReLは階層的なフレームワークであり、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。
実験の結果,RePReLは手前のタスクに対して,優れた性能と効率的な学習を実現するだけでなく,目に見えないタスクに対するより優れた一般化も示している。
論文 参考訳(メタデータ) (2021-10-15T18:53:04Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer [85.19766065886422]
我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
論文 参考訳(メタデータ) (2020-07-12T03:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。