論文の概要: G-Learner and GIRL: Goal Based Wealth Management with Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2002.10990v1
- Date: Tue, 25 Feb 2020 16:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:09:14.488422
- Title: G-Learner and GIRL: Goal Based Wealth Management with Reinforcement
Learning
- Title(参考訳): G-LearnerとGIRL:強化学習によるゴールベースウェルスマネジメント
- Authors: Matthew Dixon and Igor Halperin
- Abstract要約: 本稿では,退職計画の最適化や目標額の達成など,目標に基づく資産管理問題に対する強化学習手法を提案する。
Gラーナー(G-Learner)は,1ステップの報酬を明示的に定義した強化学習アルゴリズムである。
Inverse Reinforcement Learningの設定にゴールベースGラーニングアプローチを拡張する新しいアルゴリズムであるGIRLを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a reinforcement learning approach to goal based wealth management
problems such as optimization of retirement plans or target dated funds. In
such problems, an investor seeks to achieve a financial goal by making periodic
investments in the portfolio while being employed, and periodically draws from
the account when in retirement, in addition to the ability to re-balance the
portfolio by selling and buying different assets (e.g. stocks). Instead of
relying on a utility of consumption, we present G-Learner: a reinforcement
learning algorithm that operates with explicitly defined one-step rewards, does
not assume a data generation process, and is suitable for noisy data. Our
approach is based on G-learning - a probabilistic extension of the Q-learning
method of reinforcement learning.
In this paper, we demonstrate how G-learning, when applied to a quadratic
reward and Gaussian reference policy, gives an entropy-regulated Linear
Quadratic Regulator (LQR). This critical insight provides a novel and
computationally tractable tool for wealth management tasks which scales to high
dimensional portfolios. In addition to the solution of the direct problem of
G-learning, we also present a new algorithm, GIRL, that extends our goal-based
G-learning approach to the setting of Inverse Reinforcement Learning (IRL)
where rewards collected by the agent are not observed, and should instead be
inferred. We demonstrate that GIRL can successfully learn the reward parameters
of a G-Learner agent and thus imitate its behavior. Finally, we discuss
potential applications of the G-Learner and GIRL algorithms for wealth
management and robo-advising.
- Abstract(参考訳): 本稿では,退職計画の最適化や目標年金等,目標ベースの富運用問題に対する強化学習手法を提案する。
このような問題において、投資家は、採用中のポートフォリオに定期的に投資することで財務目標を達成し、退職時の口座から定期的に引き出し、また、異なる資産(例えば株式)の販売・購入によってポートフォリオを再バランスさせる能力も求める。
Gラーナー(G-Learner)は、1ステップの報酬を明示的に定義し、データ生成プロセスを前提とせず、ノイズの多いデータに適した強化学習アルゴリズムである。
本手法は,強化学習のq学習手法の確率的拡張であるg-learningに基づいている。
本稿では,g-learningが2次報酬とガウス参照ポリシーに適用された場合,エントロピー制御線形2次レギュレータ(lqr)を与えることを示す。
この重要な洞察は、高次元のポートフォリオにスケールする富の管理タスクに対して、新しく計算可能なツールを提供します。
また,g-learningの直接問題の解法に加えて,目標ベースのg-learningアプローチを,エージェントが収集した報酬が観測されない逆強化学習(irl)の設定に拡張し,その代わりに推測すべき新しいアルゴリズムであるgirlを提案する。
我々は,少女がg-learnerエージェントの報酬パラメータを学習し,その動作を模倣できることを実証する。
最後に,G-LearnerアルゴリズムとGIRLアルゴリズムの富管理とロボアドバイスへの応用の可能性について論じる。
関連論文リスト
- Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - An intelligent algorithmic trading based on a risk-return reinforcement
learning algorithm [0.0]
本稿では,改良された深部強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。
提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題はポートフォリオ累積リターンの分布を学習することである。
Ape-xと呼ばれるマルチプロセスを用いて、深層強化学習訓練の高速化を図る。
論文 参考訳(メタデータ) (2022-08-23T03:20:06Z) - Asset Allocation: From Markowitz to Deep Reinforcement Learning [2.0305676256390934]
資産配分とは、ポートフォリオの資産を常に再分配することでリスクと報酬のバランスをとることを目的とした投資戦略である。
我々は、多くの最適化手法の有効性と信頼性を決定するために、広範囲なベンチマーク研究を行う。
論文 参考訳(メタデータ) (2022-07-14T14:44:04Z) - Embracing advanced AI/ML to help investors achieve success: Vanguard
Reinforcement Learning for Financial Goal Planning [0.0]
強化学習(Reinforcement learning)は、複雑なデータセットに使用できる機械学習アプローチである。
我々は、金融予測、経済指標の予測、貯蓄戦略の作成における機械学習の利用について検討する。
論文 参考訳(メタデータ) (2021-10-18T18:46:20Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Guided Variational Autoencoder for Disentanglement Learning [79.02010588207416]
本稿では,潜在表現非絡み合い学習を行うことで,制御可能な生成モデルを学習できるアルゴリズム,Guided-VAEを提案する。
我々は、ガイド-VAEにおける教師なし戦略と教師なし戦略を設計し、バニラVAE上でのモデリングと制御能力の強化を観察する。
論文 参考訳(メタデータ) (2020-04-02T20:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。