論文の概要: Inference of Utilities and Time Preference in Sequential Decision-Making
- arxiv url: http://arxiv.org/abs/2405.15975v2
- Date: Mon, 3 Jun 2024 18:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 09:02:44.704837
- Title: Inference of Utilities and Time Preference in Sequential Decision-Making
- Title(参考訳): シークエンシャル意思決定におけるユーティリティと時間優先の推論
- Authors: Haoyang Cao, Zhengqi Wu, Renyuan Xu,
- Abstract要約: 本稿では,自動投資マネージャやロボアドバイザの能力を高めるための新しい制御フレームワークを提案する。
本稿では,各クライアントのリスク許容度,日々の消費評価,重要な生活目標に合わせた,実用機能と時間変化率の一般的な割引スキームを組み込んだ連続時間モデルを提案する。
提案する枠組みは、個別の投資アドバイスを改善することで金融技術の進歩だけでなく、医療、経済学、人工知能など他の分野にも広く貢献する。
- 参考スコア(独自算出の注目度): 3.823356975862005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel stochastic control framework to enhance the capabilities of automated investment managers, or robo-advisors, by accurately inferring clients' investment preferences from past activities. Our approach leverages a continuous-time model that incorporates utility functions and a generic discounting scheme of a time-varying rate, tailored to each client's risk tolerance, valuation of daily consumption, and significant life goals. We address the resulting time inconsistency issue through state augmentation and the establishment of the dynamic programming principle and the verification theorem. Additionally, we provide sufficient conditions for the identifiability of client investment preferences. To complement our theoretical developments, we propose a learning algorithm based on maximum likelihood estimation within a discrete-time Markov Decision Process framework, augmented with entropy regularization. We prove that the log-likelihood function is locally concave, facilitating the fast convergence of our proposed algorithm. Practical effectiveness and efficiency are showcased through two numerical examples, including Merton's problem and an investment problem with unhedgeable risks. Our proposed framework not only advances financial technology by improving personalized investment advice but also contributes broadly to other fields such as healthcare, economics, and artificial intelligence, where understanding individual preferences is crucial.
- Abstract(参考訳): 本稿では,過去の業務からクライアントの投資嗜好を正確に推測することで,自動投資管理者やロボアドバイザの能力を高めるための,新しい確率制御フレームワークを提案する。
提案手法は,各クライアントのリスク許容度,日々の消費評価,重要な生活目標に合わせた,実用機能と時間変化率の一般的な割引スキームを組み込んだ連続時間モデルを活用する。
我々は、状態拡張と動的プログラミング原理の確立と検証定理の確立を通じて、結果の時間的矛盾問題に対処する。
また、顧客投資嗜好の特定可能性について十分な条件を提供する。
理論的発展を補完するために,エントロピー正則化を付加した離散時間マルコフ決定プロセスフレームワーク内での最大推定に基づく学習アルゴリズムを提案する。
ログのような関数が局所的に凹凸であることが証明され,提案アルゴリズムの高速収束が促進される。
実効性と効率性は、メルトンの問題と、未解決のリスクを伴う投資問題を含む2つの数値的な例を通して示される。
提案する枠組みは、個別の投資アドバイスを改善することで金融技術を発展させるだけでなく、個別の嗜好を理解することが不可欠である医療、経済学、人工知能など他の分野にも広く貢献する。
関連論文リスト
- Deep Generative Demand Learning for Newsvendor and Pricing [7.594251468240168]
我々は、機能ベースのニュースベンダ問題において、データ駆動の在庫と価格決定について検討する。
本稿では,これらの課題に対処するために条件付き深層生成モデル(cDGM)を活用する新しいアプローチを提案する。
我々は、利益予測の整合性や最適解への決定の収束など、我々のアプローチに対する理論的保証を提供する。
論文 参考訳(メタデータ) (2024-11-13T14:17:26Z) - Data-Driven Goal Recognition Design for General Behavioral Agents [14.750023724230774]
汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。
本稿では,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
論文 参考訳(メタデータ) (2024-04-03T20:38:22Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Adaptive Real Time Exploration and Optimization for Safety-Critical
Systems [0.0]
安全制約を考慮したプログラミング問題として,マルチアームバンディットを用いたARTEOアルゴリズムを提案する。
最適化入力の変化と探索を通して環境特性を学習する。
既存のセーフラーニング手法と比較して、我々のアルゴリズムは排他的な探索フェーズを必要とせず、探索点においても最適化目標に従う。
論文 参考訳(メタデータ) (2022-11-10T11:37:22Z) - Decentralized Stochastic Optimization with Inherent Privacy Protection [103.62463469366557]
分散最適化は、現代の協調機械学習、分散推定と制御、大規模センシングの基本的な構成要素である。
データが関与して以降、分散最適化アルゴリズムの実装において、プライバシ保護がますます重要になっている。
論文 参考訳(メタデータ) (2022-05-08T14:38:23Z) - Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics
in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。
最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。
予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-07T18:59:54Z) - Sequential Information Design: Markov Persuasion Process and Its
Efficient Reinforcement Learning [156.5667417159582]
本稿では,逐次情報設計の新たなモデル,すなわちマルコフ説得過程(MPP)を提案する。
MPPのプランニングは、ミオピックレシーバーに同時に説得されるシグナルポリシーを見つけ、送信者の最適な長期累積ユーティリティを誘導する、というユニークな課題に直面している。
我々は,楽観主義と悲観主義の両原理の新たな組み合わせを特徴とする,実証可能な効率のよい非回帰学習アルゴリズム,Optimism-Pessimism Principle for Persuasion Process (OP4) を設計する。
論文 参考訳(メタデータ) (2022-02-22T05:41:43Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Learning Risk Preferences from Investment Portfolios Using Inverse
Optimization [25.19470942583387]
本稿では,既存ポートフォリオからのリスク嗜好を逆最適化を用いて測定する手法を提案する。
我々は、20年間の資産価格と10年間の相互ファンドポートフォリオ保有からなる実市場データについて、本手法を実証する。
論文 参考訳(メタデータ) (2020-10-04T21:29:29Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。