論文の概要: Reinforcement Learning with Depreciating Assets
- arxiv url: http://arxiv.org/abs/2302.14176v1
- Date: Mon, 27 Feb 2023 22:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:52:24.343437
- Title: Reinforcement Learning with Depreciating Assets
- Title(参考訳): 減価償却資産を用いた強化学習
- Authors: Taylor Dohmen and Ashutosh Trivedi
- Abstract要約: 報酬の価値が得られた時点から経過した時間に比例して低下する状況を考える。
本稿では,古典的指数割引に触発された資産の減価償却の概念を提案する。
- 参考スコア(独自算出の注目度): 1.7006003864727408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A basic assumption of traditional reinforcement learning is that the value of
a reward does not change once it is received by an agent. The present work
forgoes this assumption and considers the situation where the value of a reward
decays proportionally to the time elapsed since it was obtained. Emphasizing
the inflection point occurring at the time of payment, we use the term asset to
refer to a reward that is currently in the possession of an agent. Adopting
this language, we initiate the study of depreciating assets within the
framework of infinite-horizon quantitative optimization. In particular, we
propose a notion of asset depreciation, inspired by classical exponential
discounting, where the value of an asset is scaled by a fixed discount factor
at each time step after it is obtained by the agent. We formulate a
Bellman-style equational characterization of optimality in this context and
develop a model-free reinforcement learning approach to obtain optimal
policies.
- Abstract(参考訳): 伝統的な強化学習の基本的な前提は、報酬の価値がエージェントが受け取れば変化しないということである。
本研究は、この仮定を先送りし、報酬の値が得られた時点から経過した時間に比例して減衰する状況を考える。
支払い時に発生する変曲点を強調し、現在エージェントが所有している報酬を「資産」という用語で表す。
この言語を応用し、無限水平定量最適化の枠組みの中で資産の減価化の研究を開始する。
特に,従来の指数割引に着想を得た資産減価償却の概念を提案し,エージェントが取得した各時点における資産の値が固定割引係数によってスケールされる。
この文脈で最適性のベルマン型方程式を定式化し、最適方針を得るためのモデルフリー強化学習手法を考案する。
関連論文リスト
- Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。
ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。
単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文 参考訳(メタデータ) (2023-08-28T22:29:16Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Concurrent Credit Assignment for Data-efficient Reinforcement Learning [0.0]
状態と行動空間を広くサンプリングする能力は、効果的な強化学習アルゴリズムを構築する上で重要な要素である。
占有モデルは、探査が進むにつれて頻繁に更新される。
その結果, サンプリングの有効性は有意に向上し, トレーニング時間を短縮し, より高いリターンが得られた。
論文 参考訳(メタデータ) (2022-05-24T12:11:34Z) - Statistical Learning for Individualized Asset Allocation [22.053470518472356]
我々は,連続行動の効果をモデル化するための離散化手法を開発した。
一般化された凹凸ペナルティを用いた推定器は望ましい理論的特性を享受できることを示す。
その結果, 個人化された最適戦略は, 個人財政の健全性を向上し, ベンチマーク戦略を超越していることが示唆された。
論文 参考訳(メタデータ) (2022-01-20T04:40:03Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。