Fugu-MT 論文翻訳(概要): Mean-Variance Efficient Reinforcement Learning with Applications to Dynamic Financial Investment

論文の概要: Mean-Variance Efficient Reinforcement Learning with Applications to Dynamic Financial Investment

arxiv url: http://arxiv.org/abs/2010.01404v4
Date: Tue, 12 Nov 2024 21:09:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.074158
Title: Mean-Variance Efficient Reinforcement Learning with Applications to Dynamic Financial Investment
Title（参考訳）: ダイナミック・ファイナンシャル・インベストメントのための平均変数効率強化学習
Authors: Masahiro Kato, Kei Nakagawa, Kenshi Abe, Tetsuro Morimura, Kentaro Baba,
Abstract要約: 本研究では、強化学習(RL)における平均分散(MV)トレードオフについて検討する。期待される報奨の増大が相反する分散の増大を必要とすることを条件として,期待される二次効用を最大化するために我々の政策を訓練する手法を提案する。我々は,最大化器がMV効率の政策として真に適していることを示した。
参考スコア（独自算出の注目度）: 10.555644626138601
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study investigates the mean-variance (MV) trade-off in reinforcement learning (RL), an instance of the sequential decision-making under uncertainty. Our objective is to obtain MV-efficient policies whose means and variances are located on the Pareto efficient frontier with respect to the MV trade-off; under the condition, any increase in the expected reward would necessitate a corresponding increase in variance, and vice versa. To this end, we propose a method that trains our policy to maximize the expected quadratic utility, defined as a weighted sum of the first and second moments of the rewards obtained through our policy. We subsequently demonstrate that the maximizer indeed qualifies as an MV-efficient policy. Previous studies that employed constrained optimization to address the MV trade-off have encountered computational challenges. However, our approach is more computationally efficient as it eliminates the need for gradient estimation of variance, a contributing factor to the double sampling issue observed in existing methodologies. Through experimentation, we validate the efficacy of our approach.
Abstract（参考訳）: 本研究では,不確実性を考慮した逐次意思決定の事例である強化学習(RL)における平均分散(MV)トレードオフについて検討する。我々の目的は、MVトレードオフに関してパレート効率のよいフロンティアに手段と分散が配置されているMV効率の政策を得ることであり、その条件下では、期待される報酬の増加は、変動の増加を必要とし、その逆も必要である。そこで本稿では,提案する2次効用を最大化するために政策を訓練する手法を提案し,この方針により得られる報奨の1次と2次を重み付けした和として定義する。その後、最大化器がMV効率の政策として真に適していることが証明された。 MVトレードオフに対処するために制約付き最適化を用いたこれまでの研究は、計算上の課題に直面してきた。しかし,本手法は,既存手法で観測された二重サンプリング問題への寄与要因である分散の勾配推定を不要にするため,より計算的に効率的である。実験を通じて,我々のアプローチの有効性を検証する。

関連論文リスト

Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。そして、推定報酬を最適化することで最適な政策を学ぶ。
論文参考訳（メタデータ） (2025-01-14T12:33:02Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文参考訳（メタデータ） (2023-11-22T10:23:14Z)
Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T12:43:47Z)
Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-15T08:32:53Z)
Deterministic and Discriminative Imitation (D2-Imitation): Revisiting Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文参考訳（メタデータ） (2021-12-11T19:36:19Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。