論文の概要: Parameterized Projected Bellman Operator
- arxiv url: http://arxiv.org/abs/2312.12869v2
- Date: Mon, 12 Feb 2024 15:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:06:15.179956
- Title: Parameterized Projected Bellman Operator
- Title(参考訳): パラメータ化射影ベルマン演算子
- Authors: Th\'eo Vincent, Alberto Maria Metelli, Boris Belousov, Jan Peters,
Marcello Restelli and Carlo D'Eramo
- Abstract要約: 近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
- 参考スコア(独自算出の注目度): 64.129598593852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Approximate value iteration (AVI) is a family of algorithms for reinforcement
learning (RL) that aims to obtain an approximation of the optimal value
function. Generally, AVI algorithms implement an iterated procedure where each
step consists of (i) an application of the Bellman operator and (ii) a
projection step into a considered function space. Notoriously, the Bellman
operator leverages transition samples, which strongly determine its behavior,
as uninformative samples can result in negligible updates or long detours,
whose detrimental effects are further exacerbated by the computationally
intensive projection step. To address these issues, we propose a novel
alternative approach based on learning an approximate version of the Bellman
operator rather than estimating it through samples as in AVI approaches. This
way, we are able to (i) generalize across transition samples and (ii) avoid the
computationally intensive projection step. For this reason, we call our novel
operator projected Bellman operator (PBO). We formulate an optimization problem
to learn PBO for generic sequential decision-making problems, and we
theoretically analyze its properties in two representative classes of RL
problems. Furthermore, we theoretically study our approach under the lens of
AVI and devise algorithmic implementations to learn PBO in offline and online
settings by leveraging neural network parameterizations. Finally, we
empirically showcase the benefits of PBO w.r.t. the regular Bellman operator on
several RL problems.
- Abstract(参考訳): 近似値反復 (avi) は、最適値関数の近似を得ることを目的とした強化学習(rl)のためのアルゴリズム群である。
一般に、AVIアルゴリズムは各ステップが構成される反復手順を実装している。
(i)ベルマン作用素の応用と
(ii)考慮された函数空間への射影ステップ。
ベルマン作用素はその挙動を強く決定する遷移サンプルを利用しており、非形式的なサンプルは無視できない更新や長いデトゥールを生じさせ、その有害な効果は計算的に集中的なプロジェクションステップによってさらに悪化する。
そこで本研究では, avi法のようにサンプルから推定するのではなく, ベルマン作用素の近似バージョンを学習することに基づく新しい代替手法を提案する。
このようにして、私たちは
(i)遷移サンプルを一般化し、
(ii)計算集約的な投影ステップを避ける。
このため、我々は新しい作用素をベルマン作用素 (PBO) と呼ぶ。
汎用的な逐次意思決定問題に対するpbo学習のための最適化問題を定式化し,その性質をrl問題の2つの代表的なクラスで理論的に解析する。
さらに,このアプローチをaviのレンズで理論的に検討し,ニューラルネットワークのパラメータ化を利用してオフラインおよびオンライン環境でpboを学習するアルゴリズムの実装を考案する。
最後に、いくつかのRL問題に対する正規ベルマン作用素 PBO w.r.t. の利点を実証的に示す。
関連論文リスト
- Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Free from Bellman Completeness: Trajectory Stitching via Model-based
Return-conditioned Supervised Learning [22.287106840756483]
本稿では,リターン条件付き教師あり学習(RCSL)に基づく非政治的学習技術が,ベルマン完全性の課題を回避することができることを示す。
本稿では,MBRCSL と呼ばれる単純なフレームワークを提案し,RCSL の手法により動的プログラミングにより,異なるトラジェクトリのセグメントを縫合することを可能にする。
論文 参考訳(メタデータ) (2023-10-30T07:03:14Z) - Multi-Bellman operator for convergence of $Q$-learning with linear
function approximation [3.6218162133579694]
線形関数近似を用いた$Q$-learningの収束について検討する。
新規なマルチベルマン作用素の性質を探索することにより、投影されたマルチベルマン作用素が収縮する条件を特定する。
このアルゴリズムは、射影されたマルチベルマン作用素の固定点に収束し、任意の精度の解が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T19:56:31Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical
Comparison [17.692408242465763]
バッチ強化学習において、$Qstar$を近似する2つのアルゴリズムの性能保証を証明する。
アルゴリズムの1つは、ベルマン誤差推定における悪名高い「二重サンプリング」困難を克服するために、新しく明確な重要度重み付け補正を使用する。
論文 参考訳(メタデータ) (2020-03-09T05:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。