論文の概要: Proper Value Equivalence
- arxiv url: http://arxiv.org/abs/2106.10316v1
- Date: Fri, 18 Jun 2021 19:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 07:47:44.227813
- Title: Proper Value Equivalence
- Title(参考訳): Proper Value Equivalence
- Authors: Christopher Grimm, Andr\'e Barreto, Gregory Farquhar, David Silver,
Satinder Singh
- Abstract要約: 我々は、MuZero や Muesli のような一般的なアルゴリズムは、この損失の上限を最小化するものとして理解することができると論じる。
我々は,MuZeroの修正を提案するため,MuZeroの修正を提案し,実際の性能向上につながることを示す。
- 参考スコア(独自算出の注目度): 37.565244088924906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the main challenges in model-based reinforcement learning (RL) is to
decide which aspects of the environment should be modeled. The
value-equivalence (VE) principle proposes a simple answer to this question: a
model should capture the aspects of the environment that are relevant for
value-based planning. Technically, VE distinguishes models based on a set of
policies and a set of functions: a model is said to be VE to the environment if
the Bellman operators it induces for the policies yield the correct result when
applied to the functions. As the number of policies and functions increase, the
set of VE models shrinks, eventually collapsing to a single point corresponding
to a perfect model. A fundamental question underlying the VE principle is thus
how to select the smallest sets of policies and functions that are sufficient
for planning. In this paper we take an important step towards answering this
question. We start by generalizing the concept of VE to order-$k$ counterparts
defined with respect to $k$ applications of the Bellman operator. This leads to
a family of VE classes that increase in size as $k \rightarrow \infty$. In the
limit, all functions become value functions, and we have a special
instantiation of VE which we call proper VE or simply PVE. Unlike VE, the PVE
class may contain multiple models even in the limit when all value functions
are used. Crucially, all these models are sufficient for planning, meaning that
they will yield an optimal policy despite the fact that they may ignore many
aspects of the environment. We construct a loss function for learning PVE
models and argue that popular algorithms such as MuZero and Muesli can be
understood as minimizing an upper bound for this loss. We leverage this
connection to propose a modification to MuZero and show that it can lead to
improved performance in practice.
- Abstract(参考訳): モデルベース強化学習(RL)の主な課題の1つは、環境のどの側面をモデル化すべきかを決定することである。
価値等価性(VE)の原則は、この問題に対する単純な答えである: モデルは、価値ベースの計画に関係のある環境の側面を捉えなければならない。
厳密には、VEは一連のポリシーと一連の関数に基づいてモデルを区別する:モデルが環境に対してVEであるとは、ベルマン演算子が関数に適用すると正しい結果が得られることを誘導する。
ポリシーと関数の数が増えるにつれて、VEモデルの集合は縮小し、最終的には完全なモデルに対応する単一点に崩壊する。
したがって、ve原則の基礎となる基本的な問題は、計画に足りる最小のポリシーと機能を選択する方法である。
本稿では,この質問に答える上で重要な一歩を踏み出します。
まず ve の概念をベルマン作用素の $k$ 応用に関して定義されたオーダー-$k$ に対応するものに一般化する。
これは、$k \rightarrow \infty$としてサイズが増加するVEクラスのファミリーにつながる。
この極限において、すべての関数は値関数となり、適切な VE あるいは単に PVE と呼ぶ VE の特別なインスタンス化が成立する。
VEとは異なり、PVEクラスはすべての値関数が使用されるときでも複数のモデルを含むことができる。
重要なのは、これらのモデルはすべて計画に十分であり、環境の多くの側面を無視できるという事実にもかかわらず、最適なポリシーが得られるということです。
我々はPVEモデルを学習するための損失関数を構築し、MuZeroやMuesliのような一般的なアルゴリズムは、この損失の上限を最小化できると主張している。
この接続を利用して、MuZeroの修正を提案し、実際にパフォーマンスを改善することができることを示す。
関連論文リスト
- Partial Identifiability and Misspecification in Inverse Reinforcement Learning [64.13583792391783]
Inverse Reinforcement Learning の目的は、報酬関数 $R$ をポリシー $pi$ から推論することである。
本稿では,IRLにおける部分的識別性と不特定性について包括的に分析する。
論文 参考訳(メタデータ) (2024-11-24T18:35:46Z) - Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning [0.0]
我々は,非累積マルコフ決定過程を標準MDPに一般化したマッピングを導入する。
これにより、MDPがより大規模なNCMDPに直接適用されるための最適なポリシーを見つけるために開発されたすべての技術が利用可能となる。
我々は、古典的な制御、金融におけるポートフォリオ最適化、離散最適化問題など、様々なタスクのアプリケーションを示す。
論文 参考訳(メタデータ) (2024-05-22T13:01:37Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - IdealGPT: Iteratively Decomposing Vision and Language Reasoning via
Large Language Models [77.0577928874177]
大規模言語モデル(LLM)を用いた視覚・言語推論(VL)を分解するフレームワークを開発する。
特に、IdealGPTは、VCRでは10%、SNLI-VEでは15%、既存のGPT-4のようなモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T10:19:57Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Model Selection in Reinforcement Learning with General Function
Approximations [10.97775622611135]
強化学習環境におけるモデル選択の検討 - マルチアームバンド(MAB)とマルコフ決定プロセス(MDP)-
モデル選択フレームワークでは、$mathcalF$と$mathcalM$で表される関数クラスを知らない。
適応アルゴリズムの累積的後悔は、正しい関数クラスを知っているオラクルの後悔と一致することを示す。
論文 参考訳(メタデータ) (2022-07-06T21:52:07Z) - On Query-efficient Planning in MDPs under Linear Realizability of the
Optimal State-value Function [14.205660708980988]
固定水平マルコフ決定過程(MDP)における局所的計画の問題点を生成モデルを用いて考察する。
最近の下界は、最適ポリシーの作用値関数が線形に実現可能である場合の関連する問題は指数的なクエリ数を必要とすることを証明している。
本研究では,アクションセットが小さい場合,ポリ$(H, d)$学習が(状態値関数の実現可能性を持つ)可能であることを確かめる。
論文 参考訳(メタデータ) (2021-02-03T13:23:15Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。