論文の概要: Goal-Space Planning with Subgoal Models
- arxiv url: http://arxiv.org/abs/2206.02902v5
- Date: Tue, 27 Feb 2024 06:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 01:25:04.479688
- Title: Goal-Space Planning with Subgoal Models
- Title(参考訳): サブゴールモデルによる目標空間計画
- Authors: Chunlok Lo, Kevin Roice, Parham Mohammad Panahi, Scott Jordan, Adam
White, Gabor Mihucz, Farzane Aminmansour, Martha White
- Abstract要約: 本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
- 参考スコア(独自算出の注目度): 18.43265820052893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates a new approach to model-based reinforcement learning
using background planning: mixing (approximate) dynamic programming updates and
model-free updates, similar to the Dyna architecture. Background planning with
learned models is often worse than model-free alternatives, such as Double DQN,
even though the former uses significantly more memory and computation. The
fundamental problem is that learned models can be inaccurate and often generate
invalid states, especially when iterated many steps. In this paper, we avoid
this limitation by constraining background planning to a set of (abstract)
subgoals and learning only local, subgoal-conditioned models. This goal-space
planning (GSP) approach is more computationally efficient, naturally
incorporates temporal abstraction for faster long-horizon planning and avoids
learning the transition dynamics entirely. We show that our GSP algorithm can
propagate value from an abstract space in a manner that helps a variety of base
learners learn significantly faster in different domains.
- Abstract(参考訳): 本稿では,動的プログラミング更新とモデルフリー更新を混合(近似)する,背景計画を用いたモデルベース強化学習の新しいアプローチについて検討する。
学習モデルを用いたバックグラウンドプランニングは、メモリや計算量が非常に多いにもかかわらず、double dqnのようなモデルフリーの代替案よりも悪い場合が多い。
根本的な問題は、学習したモデルが不正確であり、特に多くのステップを繰り返すと、しばしば無効な状態を生成することである。
本稿では,背景プランニングを一連のサブゴールに制約し,ローカルなサブゴール条件付きモデルのみを学習することで,この制限を回避する。
このゴールスペース計画(GSP)アプローチは計算効率が良く、時間的抽象化を組み込んで長期計画の高速化を実現し、遷移ダイナミクスを完全に学習するのを避ける。
我々は,GSPアルゴリズムが抽象空間から様々な基礎学習者に対して,異なる領域でより高速に学習することを可能にする方法を示す。
関連論文リスト
- A New View on Planning in Online Reinforcement Learning [19.35031543927374]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:45:19Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - SAGE: Generating Symbolic Goals for Myopic Models in Deep Reinforcement
Learning [18.37286885057802]
従来使用できなかった不完全モデルのクラスを利用するための学習と計画を組み合わせたアルゴリズムを提案する。
これは、象徴的な計画とニューラルネットワークのアプローチの長所を、タクシーの世界とマインクラフトのバリエーションで競合する手法を上回る、新しい方法で組み合わせたものだ。
論文 参考訳(メタデータ) (2022-03-09T22:55:53Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文 参考訳(メタデータ) (2020-11-25T02:49:21Z) - PLOP: Learning without Forgetting for Continual Semantic Segmentation [44.49799311137856]
セマンティックセグメンテーション(CSS)の継続的な学習は、新しいクラスを逐次追加することによって古いモデルを更新する、新たなトレンドである。
本稿では,長大かつ短大な空間関係を特徴レベルで保存する多スケールプール蒸留方式であるLocal PODを提案する。
また,従来のモデルが予測した背景w.r.t.クラスのエントロピーに基づく擬似ラベリングを設計し,背景シフトに対処し,旧クラスの破滅的忘れを避ける。
論文 参考訳(メタデータ) (2020-11-23T13:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。