論文の概要: Beyond dynamic programming
- arxiv url: http://arxiv.org/abs/2306.15029v1
- Date: Mon, 26 Jun 2023 19:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:39:50.559605
- Title: Beyond dynamic programming
- Title(参考訳): 動的プログラミングを超えて
- Authors: Abhinav Muraleedharan
- Abstract要約: 本稿では,強化学習問題の解法として,Score-lifeプログラミングを提案する。
提案手法は,非定常ポリシー関数を探索し,与えられた状態から最適無限地平線行動列を直接計算することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Score-life programming, a novel theoretical
approach for solving reinforcement learning problems. In contrast with
classical dynamic programming-based methods, our method can search over
non-stationary policy functions, and can directly compute optimal infinite
horizon action sequences from a given state. The central idea in our method is
the construction of a mapping between infinite horizon action sequences and
real numbers in a bounded interval. This construction enables us to formulate
an optimization problem for directly computing optimal infinite horizon action
sequences, without requiring a policy function. We demonstrate the
effectiveness of our approach by applying it to nonlinear optimal control
problems. Overall, our contributions provide a novel theoretical framework for
formulating and solving reinforcement learning problems.
- Abstract(参考訳): 本稿では,強化学習問題を解決するための新しい理論手法であるスコアライフプログラミングを提案する。
古典的動的計画法とは対照的に,本手法は非定常ポリシー関数を探索し,与えられた状態から最適無限水平作用列を直接計算することができる。
本手法の中心的な考え方は,無限ホライズン作用列と有界区間の実数の間の写像の構成である。
この構成により、ポリシー関数を必要とせず、最適無限水平行動列を直接計算する最適化問題を定式化することができる。
非線形最適制御問題に適用することで,本手法の有効性を示す。
全体として、我々の貢献は強化学習問題の定式化と解決のための新しい理論的枠組みを提供する。
関連論文リスト
- Umbrella Reinforcement Learning -- computationally efficient tool for hard non-linear problems [0.0]
このアプローチは、ポリシー勾配を用いてニューラルネットワークに基づいて実現される。
計算効率と実装の普遍性により、全ての最先端のアルゴリズムが利用可能であり、スパース報酬、状態トラップ、端末状態の欠如といった難しいRL問題に適用できる。
論文 参考訳(メタデータ) (2024-11-21T13:34:36Z) - Optimization-Driven Adaptive Experimentation [7.948144726705323]
実世界の実験には、バッチで遅延したフィードバック、非定常性、複数の目的と制約、そして(時には)パーソナライゼーションが含まれる。
これらの課題にプロブレム単位で対処するための適応的手法の調整は不可能であり、静的設計はデファクトスタンダードのままである。
本稿では,多種多様な目的,制約,統計的手順を柔軟に組み込む数学的プログラミングの定式化について述べる。
論文 参考訳(メタデータ) (2024-08-08T16:29:09Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Certificates of quantum many-body properties assisted by machine
learning [0.0]
本稿では,緩和技術の力と深層強化学習を組み合わせた新しい手法を提案する。
本研究は,多くの移動系の基底状態エネルギーを求める文脈において,本手法の生存可能性について述べる。
我々は、量子情報処理の分野における他の一般的な応用へのアプローチを一般化するためのツールを提供する。
論文 参考訳(メタデータ) (2021-03-05T17:47:26Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Differentiable Causal Discovery from Interventional Data [141.41931444927184]
本稿では、介入データを活用可能なニューラルネットワークに基づく理論的基盤化手法を提案する。
提案手法は,様々な環境下での美術品の状態と良好に比較できることを示す。
論文 参考訳(メタデータ) (2020-07-03T15:19:17Z) - Novel Policy Seeking with Constrained Optimization [131.67409598529287]
本稿では,強化学習課題における新しい政策作成の問題を再考する。
まず、政策間の差異を評価するための新しい指標を導入し、2つの実用的な政策生成手法を設計する。
The Constrained Task Novel Bisector (CTNB) and the internal Policy Differentiation (IPD) is derived from the fiable direction method and the interior point method known in the constrained optimization literature。
論文 参考訳(メタデータ) (2020-05-21T14:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。