論文の概要: Variational Inference for Model-Free and Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2209.01693v1
- Date: Sun, 4 Sep 2022 21:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:39:01.623478
- Title: Variational Inference for Model-Free and Model-Based Reinforcement
Learning
- Title(参考訳): モデルフリーおよびモデルベース強化学習のための変分推論
- Authors: Felix Leibfried
- Abstract要約: 変分推論 (VI) は、抽出可能な後方分布と抽出可能な後方分布を近似するベイズ近似の一種である。
一方、強化学習(Reinforcement Learning, RL)は、自律的なエージェントと、それらを最適な行動にする方法を扱う。
この写本は、VIとRLの明らかに異なる主題が2つの基本的な方法でどのようにリンクされているかを示している。
- 参考スコア(独自算出の注目度): 4.416484585765028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational inference (VI) is a specific type of approximate Bayesian
inference that approximates an intractable posterior distribution with a
tractable one. VI casts the inference problem as an optimization problem, more
specifically, the goal is to maximize a lower bound of the logarithm of the
marginal likelihood with respect to the parameters of the approximate
posterior. Reinforcement learning (RL) on the other hand deals with autonomous
agents and how to make them act optimally such as to maximize some notion of
expected future cumulative reward. In the non-sequential setting where agents'
actions do not have an impact on future states of the environment, RL is
covered by contextual bandits and Bayesian optimization. In a proper sequential
scenario, however, where agents' actions affect future states, instantaneous
rewards need to be carefully traded off against potential long-term rewards.
This manuscript shows how the apparently different subjects of VI and RL are
linked in two fundamental ways. First, the optimization objective of RL to
maximize future cumulative rewards can be recovered via a VI objective under a
soft policy constraint in both the non-sequential and the sequential setting.
This policy constraint is not just merely artificial but has proven as a useful
regularizer in many RL tasks yielding significant improvements in agent
performance. And second, in model-based RL where agents aim to learn about the
environment they are operating in, the model-learning part can be naturally
phrased as an inference problem over the process that governs environment
dynamics. We are going to distinguish between two scenarios for the latter: VI
when environment states are fully observable by the agent and VI when they are
only partially observable through an observation distribution.
- Abstract(参考訳): 変分推論 (VI) は、抽出可能な後方分布と抽出可能な後方分布を近似する特定のベイズ近似である。
VI は、推論問題を最適化問題として、より具体的には、近似後続のパラメータに関して、限界確率の対数の低い境界を最大化することが目的である。
一方、強化学習(rl)は自律エージェントを扱い、将来の累積報酬の概念を最大化するなど、それらを最適に振る舞う方法を扱っている。
エージェントのアクションが環境の将来の状態に影響を与えない非シーケンス設定では、rlは文脈的バンディットとベイズ最適化によってカバーされる。
しかし、エージェントの行動が将来の状態に影響を与える適切なシーケンシャルシナリオでは、短期的な報酬は、潜在的長期的報酬に対して慎重に取り除かれる必要がある。
この写本は、VIとRLの明らかに異なる主題が2つの基本的な方法でどのようにリンクされているかを示している。
第1に、将来の累積報酬を最大化するためのRLの最適化目標は、非順序およびシーケンシャル設定の両方において、ソフトポリシー制約の下でVIの目標を介して回収することができる。
このポリシー制約は単に人工的なだけでなく、多くのrlタスクにおいて有用な正規化剤として証明され、エージェント性能が大幅に向上した。
第二に、エージェントが運用している環境について学習しようとするモデルベースRLにおいて、モデル学習部分は、環境力学を管理するプロセス上の推論問題として自然に表現することができる。
環境状態がエージェントによって完全に観測可能な場合 VI と、観察分布を通して部分的に観測可能な場合 VI の2つのシナリオを区別する。
関連論文リスト
- ProSpec RL: Plan Ahead, then Execute [7.028937493640123]
将来的なnストリーム軌道を想像して,高値,低リスクの最適決定を行うProspective (ProSpec) RL法を提案する。
ProSpecは、現在の状態と一連のサンプルアクションに基づいて将来の状態を予測するために、ダイナミックモデルを使用している。
提案手法の有効性をDMControlベンチマークで検証し,本手法による性能改善を実現した。
論文 参考訳(メタデータ) (2024-07-31T06:04:55Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。
本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:16:07Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。