論文の概要: Inverse Policy Evaluation for Value-based Sequential Decision-making
- arxiv url: http://arxiv.org/abs/2008.11329v1
- Date: Wed, 26 Aug 2020 01:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 20:54:35.312149
- Title: Inverse Policy Evaluation for Value-based Sequential Decision-making
- Title(参考訳): 価値に基づくシーケンス決定のための逆ポリシー評価
- Authors: Alan Chan, Kris de Asis, Richard S. Sutton
- Abstract要約: 強化学習のための価値に基づく手法は、一般に価値関数から振舞いを導出する方法を欠いている。
本稿では、逆ポリシー評価と近似値反復アルゴリズムを組み合わせることで、値ベース制御の実現可能性を示す。
- 参考スコア(独自算出の注目度): 10.188967035477217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-based methods for reinforcement learning lack generally applicable ways
to derive behavior from a value function. Many approaches involve approximate
value iteration (e.g., $Q$-learning), and acting greedily with respect to the
estimates with an arbitrary degree of entropy to ensure that the state-space is
sufficiently explored. Behavior based on explicit greedification assumes that
the values reflect those of \textit{some} policy, over which the greedy policy
will be an improvement. However, value-iteration can produce value functions
that do not correspond to \textit{any} policy. This is especially relevant in
the function-approximation regime, when the true value function can't be
perfectly represented. In this work, we explore the use of \textit{inverse
policy evaluation}, the process of solving for a likely policy given a value
function, for deriving behavior from a value function. We provide theoretical
and empirical results to show that inverse policy evaluation, combined with an
approximate value iteration algorithm, is a feasible method for value-based
control.
- Abstract(参考訳): 強化学習のための価値に基づく手法は、一般に価値関数から振る舞いを導出する方法を欠いている。
多くのアプローチは、近似値の反復(例えば$Q$-learning)を伴い、状態空間が十分に探索されていることを保証するために、任意のエントロピーの程度で見積もりに対して厳密に行動する。
明示的な欲求化に基づく行動は、その値は、欲求政策が改善されるような『textit{some}』ポリシーを反映していると仮定する。
しかし、値イテレーションは \textit{any} ポリシーに対応しない値関数を生成することができる。
これは、真の値関数が完全に表現できない場合、関数近似レジームにおいて特に関係する。
本稿では,値関数から振る舞いを導出するために,値関数が与えられた可能性のあるポリシーの解法である \textit{inverse policy evaluation} の利用について検討する。
本稿では,逆ポリシー評価と近似値反復アルゴリズムを組み合わせることで,価値に基づく制御の実現可能性を示す理論的,実証的な結果を提供する。
関連論文リスト
- Stable Offline Value Function Learning with Bisimulation-based Representations [13.013000247825248]
強化学習では、固定目標ポリシーに従って行動を行う際に、各状態から期待される割引リターンを推定するために、オフライン値関数学習を用いる。
状態-作用表現を明示的に形成することにより、値関数学習を安定させることが重要である。
我々は、オフラインポリシー評価(KROPE)のためのカーネル表現と呼ばれるシミュレーションベースのアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-10-02T15:13:25Z) - Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States [12.059140532198064]
政策評価と改善の学習は強化学習の中核的な問題である。
最近検討された競合の代替手段は、多くのポリシーで単一の値関数を学ぶことである。
NNポリシを評価するために訓練された値関数も,ポリシアーキテクチャの変更に不変であることを示す。
論文 参考訳(メタデータ) (2022-07-04T16:34:53Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Understanding the Pathologies of Approximate Policy Evaluation when
Combined with Greedification in Reinforcement Learning [11.295757620340899]
値関数近似を用いた強化学習の理論は、基本的に不完全である。
これまでの研究は、RLアルゴリズムで生じる様々な病理的行動を特定しており、これは政治上の評価と欲求化を近似するものである。
我々は、ポリシーの振動と複数の固定点に加えて、同じ基本的な問題が、与えられた近似に対する最悪のポリシーに収束する可能性があることを示す例を示す。
論文 参考訳(メタデータ) (2020-10-28T22:57:57Z) - Approximation Benefits of Policy Gradient Methods with Aggregated States [8.348171150908724]
Folklore氏は、ポリシー勾配は、相対的な、近似的なポリシー反復よりも、誤った仕様化に対してより堅牢である、と示唆している。
本稿では、ポリシー勾配法が周期毎の後悔が$epsilon$で束縛されたポリシーに収束することを示す。
論文 参考訳(メタデータ) (2020-07-22T21:20:24Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。