論文の概要: Reinforcement Learning with Non-Exponential Discounting
- arxiv url: http://arxiv.org/abs/2209.13413v1
- Date: Tue, 27 Sep 2022 14:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:16:00.490277
- Title: Reinforcement Learning with Non-Exponential Discounting
- Title(参考訳): 非指数割引による強化学習
- Authors: Matthias Schultheis, Constantin A. Rothkopf, Heinz Koeppl
- Abstract要約: 本稿では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。
提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開くものである。
- 参考スコア(独自算出の注目度): 28.092095671829508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonly in reinforcement learning (RL), rewards are discounted over time
using an exponential function to model time preference, thereby bounding the
expected long-term reward. In contrast, in economics and psychology, it has
been shown that humans often adopt a hyperbolic discounting scheme, which is
optimal when a specific task termination time distribution is assumed. In this
work, we propose a theory for continuous-time model-based reinforcement
learning generalized to arbitrary discount functions. This formulation covers
the case in which there is a non-exponential random termination time. We derive
a Hamilton-Jacobi-Bellman (HJB) equation characterizing the optimal policy and
describe how it can be solved using a collocation method, which uses deep
learning for function approximation. Further, we show how the inverse RL
problem can be approached, in which one tries to recover properties of the
discount function given decision data. We validate the applicability of our
proposed approach on two simulated problems. Our approach opens the way for the
analysis of human discounting in sequential decision-making tasks.
- Abstract(参考訳): 典型的には強化学習(RL)において、報酬は指数関数を用いて時間的嗜好をモデル化し、予想される長期報酬を束縛する。
対照的に、経済学や心理学では、人間がしばしば双曲割引方式を採用することが示されており、これは特定のタスク終了時間分布を仮定した場合に最適である。
本研究では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。
この定式化は、非指数ランダム終了時間が存在する場合をカバーする。
最適方針を特徴づけるhamilton-jacobi-bellman(hjb)方程式を導出し,関数近似にディープラーニングを用いたコロケーション法を用いてその解法を説明する。
さらに,与えられた決定データのディスカウント関数の特性を回復しようとする逆rl問題に対して,どのようにアプローチするかを示す。
2つのシミュレーション問題に対する提案手法の適用性を検証する。
提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開く。
関連論文リスト
- Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Exploration-exploitation trade-off for continuous-time episodic
reinforcement learning with linear-convex models [2.503869683354711]
線形動的だが未知の係数と凸を持つ有限時間地平面制御問題について検討する。
この性能ギャップが2次的である条件を特定し、最近の作業における線形性能ギャップを改善する。
次に、探索・探索トレードオフを最適化し、サブ線形後悔を実現するための位相ベース学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-19T21:47:04Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。