Fugu-MT 論文翻訳(概要): Reward-Respecting Subtasks for Model-Based Reinforcement Learning

論文の概要: Reward-Respecting Subtasks for Model-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2202.03466v3
Date: Fri, 7 Jul 2023 05:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 16:24:08.368428
Title: Reward-Respecting Subtasks for Model-Based Reinforcement Learning
Title（参考訳）: モデルベース強化学習のための報酬評価サブタスク
Authors: Richard S. Sutton and Marlos C. Machado and G. Zacharias Holland and David Szepesvari and Finbarr Timbers and Brian Tanner and Adam White
Abstract要約: 強化学習には、状態と時間の抽象的な世界のモデルによる計画を含めなければならない。この理由の1つは、可能なオプションの空間が膨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬参照オプションよりも、計画立案に有用であることを示す。
参考スコア（独自算出の注目度）: 18.760554482907963
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To achieve the ambitious goals of artificial intelligence, reinforcement learning must include planning with a model of the world that is abstract in state and time. Deep learning has made progress with state abstraction, but temporal abstraction has rarely been used, despite extensively developed theory based on the options framework. One reason for this is that the space of possible options is immense, and the methods previously proposed for option discovery do not take into account how the option models will be used in planning. Options are typically discovered by posing subsidiary tasks, such as reaching a bottleneck state or maximizing the cumulative sum of a sensory signal other than reward. Each subtask is solved to produce an option, and then a model of the option is learned and made available to the planning process. In most previous work, the subtasks ignore the reward on the original problem, whereas we propose subtasks that use the original reward plus a bonus based on a feature of the state at the time the option terminates. We show that option models obtained from such reward-respecting subtasks are much more likely to be useful in planning than eigenoptions, shortest path options based on bottleneck states, or reward-respecting options generated by the option-critic. Reward respecting subtasks strongly constrain the space of options and thereby also provide a partial solution to the problem of option discovery. Finally, we show how values, policies, options, and models can all be learned online and off-policy using standard algorithms and general value functions.
Abstract（参考訳）: 人工知能の野心的な目標を達成するために、強化学習は、状態と時間に抽象的な世界のモデルによる計画を含む必要がある。ディープラーニングは状態抽象化を進歩させたが、オプションフレームワークに基づいた理論が広く発達したにもかかわらず、時間的抽象化はめったに使われていない。この理由の1つは、オプションの空間が巨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。オプションは通常、ボトルネック状態に達したり、報酬以外の感覚信号の累積和を最大化するといった、補助的なタスクを実行することで発見される。各サブタスクは、オプションを生成するために解決され、オプションのモデルが学習され、計画プロセスで利用できる。従来の作業では、サブタスクは元の問題に対する報酬を無視するが、我々は、元の報酬とオプションが終了する時の状態の特徴に基づくボーナスを使用するサブタスクを提案する。このような報奨評価サブタスクから得られるオプションモデルは、固有オプションやボトルネック状態に基づく最短経路オプション、あるいはオプションクリティカルによって生成された報酬評価オプションよりも、計画立案に有用であることを示す。サブタスクを尊重するリワードは、オプションの空間を強く制約し、オプション発見の問題に対する部分解を提供する。最後に, 標準アルゴリズムと一般価値関数を用いて, 価値, ポリシー, オプション, およびモデルをオンラインおよびオフポリシーで学習する方法を示す。

関連論文リスト

Scalable Submodular Policy Optimization via Pruned Submodularity Graph [2.8672152503836]
強化学習(RL)では、エージェントが可能なアクションのセットを介して環境と対話し、未知の分布から報酬が生成される。ここでの課題は、ある時間ステップ後の報酬が最大化されるような、最適な一連のアクションを見つけることである。
論文参考訳（メタデータ） (2025-07-18T11:42:07Z)
Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文参考訳（メタデータ） (2024-06-30T19:00:49Z)
Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。本稿では,関数近似に適合する2つの実験計画戦略を提案する。そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文参考訳（メタデータ） (2024-01-10T14:40:23Z)
Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文参考訳（メタデータ） (2023-09-30T02:25:18Z)
Matching options to tasks using Option-Indexed Hierarchical Reinforcement Learning [20.85397773933171]
階層型学習(OI-HRL)のための新しいオプションインデックス化手法を提案する。これにより、テスト時にゼロショットの一般化において、事前訓練されたオプションの大規模なライブラリを効果的に再利用できる。我々は,一連のHRL問題に対して,選択肢や環境の表現を学習するメタ学習ループを開発する。
論文参考訳（メタデータ） (2022-06-12T14:39:02Z)
Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文参考訳（メタデータ） (2022-06-07T17:37:30Z)
GrASP: Gradient-Based Affordance Selection for Planning [25.548880832898757]
学習したモデルで計画することは、インテリジェンスの重要な要素であることは間違いない。本稿では,計画に有用な価格選択手法を提案する。プリミティブアクションとオプションの価格の両方を選択することを学ぶことは可能であることを示す。
論文参考訳（メタデータ） (2022-02-08T03:24:36Z)
Temporal Abstraction in Reinforcement Learning with the Successor Representation [65.69658154078007]
我々は、後継表現(SR)が時間的抽象化の発見と利用の自然な基盤とみなすことができると論じる。我々は、SRが時間的に延長された探索や計画を容易にする選択肢を見つけるためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2021-10-12T05:07:43Z)
Temporally Abstract Partial Models [62.12485855601448]
特定の状況においてのみ、選択肢が手頃な価格であることを考慮して、時間的に抽象的な部分的オプションモデルを開発する。このようなモデルを用いた場合の計画学習における推定誤差と近似誤差のトレードオフを分析する。
論文参考訳（メタデータ） (2021-08-06T17:26:21Z)
Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。 Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文参考訳（メタデータ） (2021-06-10T06:42:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。