論文の概要: Outcome-Driven Reinforcement Learning via Variational Inference
- arxiv url: http://arxiv.org/abs/2104.10190v1
- Date: Tue, 20 Apr 2021 18:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:39:57.468698
- Title: Outcome-Driven Reinforcement Learning via Variational Inference
- Title(参考訳): 変分推論による結果駆動強化学習
- Authors: Tim G. J. Rudner and Vitchyr H. Pong and Rowan McAllister and Yarin
Gal and Sergey Levine
- Abstract要約: 我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
- 参考スコア(独自算出の注目度): 95.82770132618862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning algorithms provide automated acquisition of
optimal policies, practical application of such methods requires a number of
design decisions, such as manually designing reward functions that not only
define the task, but also provide sufficient shaping to accomplish it. In this
paper, we discuss a new perspective on reinforcement learning, recasting it as
the problem of inferring actions that achieve desired outcomes, rather than a
problem of maximizing rewards. To solve the resulting outcome-directed
inference problem, we establish a novel variational inference formulation that
allows us to derive a well-shaped reward function which can be learned directly
from environment interactions. From the corresponding variational objective, we
also derive a new probabilistic Bellman backup operator reminiscent of the
standard Bellman backup operator and use it to develop an off-policy algorithm
to solve goal-directed tasks. We empirically demonstrate that this method
eliminates the need to design reward functions and leads to effective
goal-directed behaviors.
- Abstract(参考訳): 強化学習アルゴリズムは最適なポリシーを自動で取得するが、そのような手法の実践的な応用には、タスクを定義するだけでなく、それを達成するのに十分な形状の報酬関数を手動で設計するなど、多くの設計上の決定が必要である。
本稿では,強化学習に関する新たな視点について論じ,報酬を最大化するよりも,望ましい成果を達成するための行動を推測する問題として再キャストする。
結果指向推論の課題を解決するため,環境相互作用から直接学習可能な,良好な形状の報酬関数を導出可能な,新しい変分推論の定式化を確立した。
また, 標準ベルマンバックアップ演算子を連想させる確率的ベルマンバックアップ演算子を考案し, 目標指向タスクを解くために, オフ政治アルゴリズムの開発に利用した。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
関連論文リスト
- Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Reinforcement Learning with Non-Cumulative Objective [12.906500431427716]
強化学習では、その目的は、ほぼ常にプロセスに沿った報酬に対する累積関数として定義される。
本稿では,そのような目的を最適化するための既存アルゴリズムの修正を提案する。
論文 参考訳(メタデータ) (2023-07-11T01:20:09Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Direct Behavior Specification via Constrained Reinforcement Learning [12.679780444702573]
CMDPは、一連の行動制約を順守しながら、ゴールベースのタスクを解決するように適応することができる。
ビデオゲームにおけるNPC設計のための強化学習の適用に関連する一連の連続制御タスクについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2021-12-22T21:12:28Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。