論文の概要: Reinforcement Learning with Intrinsic Affinity for Personalized Asset
Management
- arxiv url: http://arxiv.org/abs/2204.09218v1
- Date: Wed, 20 Apr 2022 04:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 23:53:05.682660
- Title: Reinforcement Learning with Intrinsic Affinity for Personalized Asset
Management
- Title(参考訳): 個人化アセット管理のための固有親和性を用いた強化学習
- Authors: Charl Maree and Christian W. Omlin
- Abstract要約: 我々は,戦略がグローバルな本質的な親和性を持つことを保証する正規化手法を開発した。
私たちは、本質的な親和性を利用して、本質的な解釈を可能にします。
我々は、RLエージェントが特定のパーソナリティプロファイルに対する個々のポリシーを編成し、高いリターンを達成するためにどのように訓練できるかを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The common purpose of applying reinforcement learning (RL) to asset
management is the maximization of profit. The extrinsic reward function used to
learn an optimal strategy typically does not take into account any other
preferences or constraints. We have developed a regularization method that
ensures that strategies have global intrinsic affinities, i.e., different
personalities may have preferences for certain assets which may change over
time. We capitalize on these intrinsic policy affinities to make our RL model
inherently interpretable. We demonstrate how RL agents can be trained to
orchestrate such individual policies for particular personality profiles and
still achieve high returns.
- Abstract(参考訳): 資産管理に強化学習(RL)を適用する一般的な目的は、利益の最大化である。
最適戦略を学ぶために用いられる極端な報酬関数は、通常、他のいかなる選好や制約も考慮しない。
我々は、戦略がグローバルな内在的親和性を持つこと、すなわち、異なる個人が時間とともに変化する可能性のある特定の資産を優先することを保証する正規化手法を開発した。
我々は、本質的な政策親和性を利用して、RLモデルを本質的に解釈可能にする。
我々は,特定のパーソナリティプロファイルに対する個々のポリシーを組織化し,高いリターンを達成するために,rlエージェントを訓練する方法を実証する。
関連論文リスト
- COPR: Continual Learning Human Preference through Optimal Policy Regularization [32.54658750353585]
我々はCOPR(Continuous Optimal Policy Regularization)と呼ばれる新しい手法を提案する。
COPRは単一の学習フェーズを含み、複雑な強化学習を必要としない。
実験の結果、COPRは強力な継続的学習(CL)ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T10:05:32Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Dirichlet policies for reinforced factor portfolios [1.3706331473063877]
本稿では、要素投資と強化学習(RL)を組み合わせることを目的とする。
エージェントは、企業の特性に依存する逐次ランダムアロケーションを通じて学習する。
パラメトリックな選択肢の幅広い範囲において、我々の結果は、RLベースのポートフォリオが均等に重み付けられた(1/N)アロケーションに非常に近いことを示している。
論文 参考訳(メタデータ) (2020-11-10T20:25:41Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z) - A General Framework on Enhancing Portfolio Management with Reinforcement
Learning [3.6985496077087743]
ポートフォリオマネジメントは、リスクプロファイルに対する望ましいリターンを満たすため、金融商品全体の資金と資産の継続的な再配置を懸念している。
深層強化学習(RL)はポートフォリオ管理への関心が高まり、RLエージェントは資産配分プロセスを最適化するために財務データに基づいて訓練されている。
本稿では,資産管理のための一般的なRLフレームワークを提案する。
論文 参考訳(メタデータ) (2019-11-26T23:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。