論文の概要: Exploratory Utility Maximization Problem with Tsallis Entropy
- arxiv url: http://arxiv.org/abs/2502.01269v1
- Date: Mon, 03 Feb 2025 11:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:53:28.878509
- Title: Exploratory Utility Maximization Problem with Tsallis Entropy
- Title(参考訳): Tsallisエントロピーを用いた探索的ユーティリティ最大化問題
- Authors: Chen Ziyi, Gu Jia-wen,
- Abstract要約: 本研究では, 相対リスク回避ユーティリティ機能を有する予測ユーティリティ問題を, 強化学習フレームワークの下で完全市場において検討した。
有効性探索問題は, 過度な探索のため, 一部事例では不十分であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We study expected utility maximization problem with constant relative risk aversion utility function in a complete market under the reinforcement learning framework. To induce exploration, we introduce the Tsallis entropy regularizer, which generalizes the commonly used Shannon entropy. Unlike the classical Merton's problem, which is always well-posed and admits closed-form solutions, we find that the utility maximization exploratory problem is ill-posed in certain cases, due to over-exploration. With a carefully selected primary temperature function, we investigate two specific examples, for which we fully characterize their well-posedness and provide semi-closed-form solutions. It is interesting to find that one example has the well-known Gaussian distribution as the optimal strategy, while the other features the rare Wigner semicircle distribution, which is equivalent to a scaled Beta distribution. The means of the two optimal exploratory policies coincide with that of the classical counterpart. In addition, we examine the convergence of the value function and optimal exploratory strategy as the exploration vanishes. Finally, we design a reinforcement learning algorithm and conduct numerical experiments to demonstrate the advantages of reinforcement learning.
- Abstract(参考訳): 強化学習の枠組みの下で, 一定の相対リスク回避ユーティリティ機能を有する予測ユーティリティ最大化問題について検討した。
探索を誘導するために、よく用いられるシャノンエントロピーを一般化するツァリスエントロピー正規化器を導入する。
古典的なメルトン問題とは違って、常によく立証され閉形式解が認められるが、有効最大化探索問題は、過剰探索のため、ある場合には不備となる。
厳密に選択された一次温度関数を用いて、2つの具体例について検討し、その有効性を十分に評価し、半閉鎖型解を提供する。
1つの例が最適戦略としてよく知られたガウス分布を持ち、もう1つの例は拡張されたベータ分布と等価な希少なウィグナー半円分布を特徴とする。
2つの最適な探索政策の手段は古典的な政策と一致する。
さらに,探索が消えるにつれて,値関数の収束と探索戦略の最適性について検討する。
最後に、強化学習アルゴリズムを設計し、強化学習の利点を示す数値実験を行う。
関連論文リスト
- An Inexact Halpern Iteration with Application to Distributionally Robust
Optimization [9.529117276663431]
決定論的および決定論的収束設定におけるスキームの不正確な変種について検討する。
不正確なスキームを適切に選択することにより、(予想される)剰余ノルムの点において$O(k-1)収束率を許容することを示す。
論文 参考訳(メタデータ) (2024-02-08T20:12:47Z) - Gaussian Process Regression for Maximum Entropy Distribution [0.0]
与えられたモーメントの集合の写像としてラグランジュ乗算器を近似するガウス事前の適合性について検討する。
考案したデータ駆動型最大エントロピー閉包の性能を,2つのテストケースで検討した。
論文 参考訳(メタデータ) (2023-08-11T14:26:29Z) - Sample Complexity for Quadratic Bandits: Hessian Dependent Bounds and
Optimal Algorithms [64.10576998630981]
最適なヘッセン依存型サンプルの複雑さを, 初めて厳密に評価した。
ヘシアン非依存のアルゴリズムは、すべてのヘシアンインスタンスに対して最適なサンプル複雑さを普遍的に達成する。
本アルゴリズムにより得られたサンプルの最適複雑さは,重み付き雑音分布においても有効である。
論文 参考訳(メタデータ) (2023-06-21T17:03:22Z) - Mastering the exploration-exploitation trade-off in Bayesian
Optimization [0.2538209532048867]
取得関数は、探索とエクスプロイトの間のバランスを評価するための次のソリューションの選択を駆動する。
本稿では,爆発的選択と搾取的選択のトレードオフを適応的に習得する,新たな獲得機能を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:19:03Z) - Stability and Generalization of Stochastic Optimization with Nonconvex
and Nonsmooth Problems [34.68590236021379]
本稿では,アルゴリズム的安定度と定量的勾配と人口間のギャップについて述べる。
これらのアルゴリズムを、暗黙の規則的な反復ステップサイズと適応勾配勾配を達成するためにどのように適用するかを示す。
論文 参考訳(メタデータ) (2022-06-14T18:14:30Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。
分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文 参考訳(メタデータ) (2020-02-21T14:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。