論文の概要: A Subgame Perfect Equilibrium Reinforcement Learning Approach to
Time-inconsistent Problems
- arxiv url: http://arxiv.org/abs/2110.14295v1
- Date: Wed, 27 Oct 2021 09:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 15:33:35.059644
- Title: A Subgame Perfect Equilibrium Reinforcement Learning Approach to
Time-inconsistent Problems
- Title(参考訳): 時間不整合問題に対するサブゲーム完全平衡強化学習アプローチ
- Authors: Nixie S. Lesmana and Chi Seng Pun
- Abstract要約: 我々は,時間一貫性(TIC)問題に対するサブゲーム完全均衡強化学習フレームワークを構築した。
我々は,SPERLを解き,両課題に対処する,BPI(backward Policy iteration)と呼ばれるアルゴリズムの新たなクラスを提案する。
トレーニングフレームワークとしてのBPIの実用性を実証するため,標準的なRLシミュレーション手法を適用し,2つのBPIベースのトレーニングアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 4.314956204483074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we establish a subgame perfect equilibrium reinforcement
learning (SPERL) framework for time-inconsistent (TIC) problems. In the context
of RL, TIC problems are known to face two main challenges: the non-existence of
natural recursive relationships between value functions at different time
points and the violation of Bellman's principle of optimality that raises
questions on the applicability of standard policy iteration algorithms for
unprovable policy improvement theorems. We adapt an extended dynamic
programming theory and propose a new class of algorithms, called backward
policy iteration (BPI), that solves SPERL and addresses both challenges. To
demonstrate the practical usage of BPI as a training framework, we adapt
standard RL simulation methods and derive two BPI-based training algorithms. We
examine our derived training frameworks on a mean-variance portfolio selection
problem and evaluate some performance metrics including convergence and model
identifiability.
- Abstract(参考訳): 本稿では,時間一貫性(TIC)問題に対するサブゲーム完全均衡強化学習(SPERL)フレームワークを確立する。
RLの文脈では、TIC問題は2つの主要な課題に直面することが知られている: 異なる時点における値関数間の自然再帰的関係の非存在とベルマンの最適性原理に違反し、証明不能な政策改善定理に対する標準ポリシー反復アルゴリズムの適用性に関する疑問を提起する。
我々は、拡張動的プログラミング理論を適用し、SPERLを解き、両方の課題に対処する、BPI(backward Policy iteration)と呼ばれる新しいアルゴリズムのクラスを提案する。
トレーニングフレームワークとしてのBPIの実用性を実証するため,標準的なRLシミュレーション手法を適用し,2つのBPIベースのトレーニングアルゴリズムを導出する。
本稿では,平均分散ポートフォリオ選択問題に関する学習フレームワークについて検討し,収束性やモデル識別性などのパフォーマンス指標を評価する。
関連論文リスト
- Principled Penalty-based Methods for Bilevel Reinforcement Learning and
RLHF [92.98631843849503]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。
高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。
我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文 参考訳(メタデータ) (2020-11-09T10:57:21Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Robust Reinforcement Learning: A Case Study in Linear Quadratic
Regulation [23.76925146112261]
本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。
LQRのポリシーイテレーションは、学習過程における小さなエラーに対して本質的に堅牢であることが示されている。
論文 参考訳(メタデータ) (2020-08-25T11:11:28Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。