論文の概要: Reward-Respecting Subtasks for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.03466v2
- Date: Wed, 9 Feb 2022 02:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 13:46:42.585010
- Title: Reward-Respecting Subtasks for Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習のための報酬評価サブタスク
- Authors: Richard S. Sutton and Marlos C. Machado and G. Zacharias Holland and
David Szepesvari and Finbarr Timbers and Brian Tanner and Adam White
- Abstract要約: 既存の学習アルゴリズムを使って、オンラインと政治以外の選択肢をどのように学べるかを示す。
また、一般的な値関数を用いて、値、ポリシー、オプション、モデルを学ぶアルゴリズムをどのように統合できるかを示す。
- 参考スコア(独自算出の注目度): 18.760554482907963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve the ambitious goals of artificial intelligence, reinforcement
learning must include planning with a model of the world that is abstract in
state and time. Deep learning has made progress in state abstraction, but,
although the theory of time abstraction has been extensively developed based on
the options framework, in practice options have rarely been used in planning.
One reason for this is that the space of possible options is immense and the
methods previously proposed for option discovery do not take into account how
the option models will be used in planning. Options are typically discovered by
posing subsidiary tasks such as reaching a bottleneck state, or maximizing a
sensory signal other than the reward. Each subtask is solved to produce an
option, and then a model of the option is learned and made available to the
planning process. The subtasks proposed in most previous work ignore the reward
on the original problem, whereas we propose subtasks that use the original
reward plus a bonus based on a feature of the state at the time the option
stops. We show that options and option models obtained from such
reward-respecting subtasks are much more likely to be useful in planning and
can be learned online and off-policy using existing learning algorithms. Reward
respecting subtasks strongly constrain the space of options and thereby also
provide a partial solution to the problem of option discovery. Finally, we show
how the algorithms for learning values, policies, options, and models can be
unified using general value functions.
- Abstract(参考訳): 人工知能の野心的な目標を達成するために、強化学習は、状態と時間に抽象的な世界のモデルによる計画を含む必要がある。
ディープラーニングは状態抽象化を進歩させたが、時間抽象化の理論はオプションフレームワークに基づいて広範囲に開発されてきたが、実際には計画にはほとんど使われていない。
この理由の1つは、オプションの空間が巨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。
オプションは通常、ボトルネック状態に到達する、または報酬以外の感覚信号を最大化するといった補助的なタスクを実行することで発見される。
各サブタスクは、オプションを生成するために解決され、オプションのモデルが学習され、計画プロセスで利用できる。
提案するサブタスクは,従来の問題に対する報酬を無視するのに対して,オプションが停止した時の状態の特徴に基づいて,元の報酬とボーナスを併用するサブタスクを提案する。
このような報酬評価サブタスクから得られるオプションやオプションモデルは、計画に有用である可能性が高く、既存の学習アルゴリズムを使用して、オンラインやオフポリシーで学ぶことができる。
サブタスクを尊重するリワードは、オプションの空間を強く制約し、オプション発見の問題に対する部分解を提供する。
最後に、一般的な値関数を用いて、値、ポリシー、オプション、モデルを学ぶアルゴリズムをどのように統合するかを示す。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Matching options to tasks using Option-Indexed Hierarchical
Reinforcement Learning [20.85397773933171]
階層型学習(OI-HRL)のための新しいオプションインデックス化手法を提案する。
これにより、テスト時にゼロショットの一般化において、事前訓練されたオプションの大規模なライブラリを効果的に再利用できる。
我々は,一連のHRL問題に対して,選択肢や環境の表現を学習するメタ学習ループを開発する。
論文 参考訳(メタデータ) (2022-06-12T14:39:02Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - GrASP: Gradient-Based Affordance Selection for Planning [25.548880832898757]
学習したモデルで計画することは、インテリジェンスの重要な要素であることは間違いない。
本稿では,計画に有用な価格選択手法を提案する。
プリミティブアクションとオプションの価格の両方を選択することを学ぶことは可能であることを示す。
論文 参考訳(メタデータ) (2022-02-08T03:24:36Z) - Temporal Abstraction in Reinforcement Learning with the Successor
Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。
我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-10-12T05:07:43Z) - Temporally Abstract Partial Models [62.12485855601448]
特定の状況においてのみ、選択肢が手頃な価格であることを考慮して、時間的に抽象的な部分的オプションモデルを開発する。
このようなモデルを用いた場合の計画学習における推定誤差と近似誤差のトレードオフを分析する。
論文 参考訳(メタデータ) (2021-08-06T17:26:21Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。