論文の概要: Reward-Respecting Subtasks for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.03466v3
- Date: Fri, 7 Jul 2023 05:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 16:24:08.368428
- Title: Reward-Respecting Subtasks for Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習のための報酬評価サブタスク
- Authors: Richard S. Sutton and Marlos C. Machado and G. Zacharias Holland and
David Szepesvari and Finbarr Timbers and Brian Tanner and Adam White
- Abstract要約: 強化学習には、状態と時間の抽象的な世界のモデルによる計画を含めなければならない。
この理由の1つは、可能なオプションの空間が膨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。
報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬参照オプションよりも、計画立案に有用であることを示す。
- 参考スコア(独自算出の注目度): 18.760554482907963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve the ambitious goals of artificial intelligence, reinforcement
learning must include planning with a model of the world that is abstract in
state and time. Deep learning has made progress with state abstraction, but
temporal abstraction has rarely been used, despite extensively developed theory
based on the options framework. One reason for this is that the space of
possible options is immense, and the methods previously proposed for option
discovery do not take into account how the option models will be used in
planning. Options are typically discovered by posing subsidiary tasks, such as
reaching a bottleneck state or maximizing the cumulative sum of a sensory
signal other than reward. Each subtask is solved to produce an option, and then
a model of the option is learned and made available to the planning process. In
most previous work, the subtasks ignore the reward on the original problem,
whereas we propose subtasks that use the original reward plus a bonus based on
a feature of the state at the time the option terminates. We show that option
models obtained from such reward-respecting subtasks are much more likely to be
useful in planning than eigenoptions, shortest path options based on bottleneck
states, or reward-respecting options generated by the option-critic. Reward
respecting subtasks strongly constrain the space of options and thereby also
provide a partial solution to the problem of option discovery. Finally, we show
how values, policies, options, and models can all be learned online and
off-policy using standard algorithms and general value functions.
- Abstract(参考訳): 人工知能の野心的な目標を達成するために、強化学習は、状態と時間に抽象的な世界のモデルによる計画を含む必要がある。
ディープラーニングは状態抽象化を進歩させたが、オプションフレームワークに基づいた理論が広く発達したにもかかわらず、時間的抽象化はめったに使われていない。
この理由の1つは、オプションの空間が巨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。
オプションは通常、ボトルネック状態に達したり、報酬以外の感覚信号の累積和を最大化するといった、補助的なタスクを実行することで発見される。
各サブタスクは、オプションを生成するために解決され、オプションのモデルが学習され、計画プロセスで利用できる。
従来の作業では、サブタスクは元の問題に対する報酬を無視するが、我々は、元の報酬とオプションが終了する時の状態の特徴に基づくボーナスを使用するサブタスクを提案する。
このような報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬評価オプションよりも、計画立案に有用であることを示す。
サブタスクを尊重するリワードは、オプションの空間を強く制約し、オプション発見の問題に対する部分解を提供する。
最後に, 標準アルゴリズムと一般価値関数を用いて, 価値, ポリシー, オプション, およびモデルをオンラインおよびオフポリシーで学習する方法を示す。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Matching options to tasks using Option-Indexed Hierarchical
Reinforcement Learning [20.85397773933171]
階層型学習(OI-HRL)のための新しいオプションインデックス化手法を提案する。
これにより、テスト時にゼロショットの一般化において、事前訓練されたオプションの大規模なライブラリを効果的に再利用できる。
我々は,一連のHRL問題に対して,選択肢や環境の表現を学習するメタ学習ループを開発する。
論文 参考訳(メタデータ) (2022-06-12T14:39:02Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - GrASP: Gradient-Based Affordance Selection for Planning [25.548880832898757]
学習したモデルで計画することは、インテリジェンスの重要な要素であることは間違いない。
本稿では,計画に有用な価格選択手法を提案する。
プリミティブアクションとオプションの価格の両方を選択することを学ぶことは可能であることを示す。
論文 参考訳(メタデータ) (2022-02-08T03:24:36Z) - Temporal Abstraction in Reinforcement Learning with the Successor
Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-10-12T05:07:43Z) - Temporally Abstract Partial Models [62.12485855601448]
特定の状況においてのみ、選択肢が手頃な価格であることを考慮して、時間的に抽象的な部分的オプションモデルを開発する。
このようなモデルを用いた場合の計画学習における推定誤差と近似誤差のトレードオフを分析する。
論文 参考訳(メタデータ) (2021-08-06T17:26:21Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。