論文の概要: Stochastic Multi-armed Bandits with Non-stationary Rewards Generated by
a Linear Dynamical System
- arxiv url: http://arxiv.org/abs/2204.05782v1
- Date: Wed, 6 Apr 2022 19:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-17 07:26:29.842127
- Title: Stochastic Multi-armed Bandits with Non-stationary Rewards Generated by
a Linear Dynamical System
- Title(参考訳): 線形力学系による非定常リワードを有する確率的マルチアームバンド
- Authors: Jonathan Gornet, Mehdi Hosseinzadeh, Bruno Sinopoli
- Abstract要約: 線形力学系から報酬をサンプリングするマルチアームバンディットの変種を提案する。
提案手法は,学習したモデルに基づいて最適な動作を選択しながら,動的システムのモデルを学ぶことである。
この戦略は、高頻度取引戦略として量的金融に適用され、この戦略は、一定期間内にリターンを最大化することを目的としている。
- 参考スコア(独自算出の注目度): 2.0460959603642004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stochastic multi-armed bandit has provided a framework for studying
decision-making in unknown environments. We propose a variant of the stochastic
multi-armed bandit where the rewards are sampled from a stochastic linear
dynamical system. The proposed strategy for this stochastic multi-armed bandit
variant is to learn a model of the dynamical system while choosing the optimal
action based on the learned model. Motivated by mathematical finance areas such
as Intertemporal Capital Asset Pricing Model proposed by Merton and Stochastic
Portfolio Theory proposed by Fernholz that both model asset returns with
stochastic differential equations, this strategy is applied to quantitative
finance as a high-frequency trading strategy, where the goal is to maximize
returns within a time period.
- Abstract(参考訳): 確率的マルチアームバンディットは未知の環境で意思決定を研究するための枠組みを提供している。
本稿では,確率的線形力学系から報酬をサンプリングする確率的マルチアームバンディットの変種を提案する。
この確率的マルチアームバンディット変種に対する提案手法は、学習モデルに基づいて最適な動作を選択しながら、力学系のモデルを学ぶことである。
メルトンが提案した時間的資本資産価格モデルやフェルンホルツが提唱した確率的ポートフォリオ理論のような数学的な金融分野に動機づけられ、この戦略は確率的微分方程式を伴うモデル資産のリターンを確率的金融戦略として量的金融に適用される。
関連論文リスト
- Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - SDYN-GANs: Adversarial Learning Methods for Multistep Generative Models
for General Order Stochastic Dynamics [20.292913470013744]
我々は,安定な$m$ステップの数値軌道に基づく生成モデルクラスを用いたGAN(Generative Adversarial Networks)を構築した。
物理的システムをモデリングして、力の法則、減衰係数、ノイズ関連パラメータを学習する方法を示す。
論文 参考訳(メタデータ) (2023-02-07T18:28:09Z) - Maximum entropy exploration in contextual bandits with neural networks
and energy based models [63.872634680339644]
モデルには2つのクラスがあり、1つはニューラルネットワークを報酬推定器とし、もう1つはエネルギーベースモデルを示す。
両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。
これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。
論文 参考訳(メタデータ) (2022-10-12T15:09:45Z) - Understanding the stochastic dynamics of sequential decision-making
processes: A path-integral analysis of multi-armed bandits [7.05949591248206]
マルチアームバンディットモデル(MAB)は、不確実な環境で意思決定を研究する最も一般的なモデルの一つである。
本稿では,MABモデルの解析に統計物理学の手法を用いる。
論文 参考訳(メタデータ) (2022-08-11T09:32:03Z) - A Variational Inference Approach to Inverse Problems with Gamma
Hyperpriors [60.489902135153415]
本稿では,ガンマハイパープライヤを用いた階層的逆問題に対する変分反復交替方式を提案する。
提案した変分推論手法は正確な再構成を行い、意味のある不確実な定量化を提供し、実装が容易である。
論文 参考訳(メタデータ) (2021-11-26T06:33:29Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Rebounding Bandits for Modeling Satiation Effects [22.92512152419544]
リバウンダリング・バンディット(rebounding bandit)は、時間不変線形力学系として飽和力学をモデル化するマルチアーム・バンディット・セットアップである。
我々は、腕が同一のダイナミクスを示す場合に、欲求政策が最適であることを示す計画問題を特徴づける。
論文 参考訳(メタデータ) (2020-11-13T03:17:29Z) - Parsimonious Quantile Regression of Financial Asset Tail Dynamics via
Sequential Learning [35.34574502348672]
本稿では、金融資産返却の動的テール挙動を学習するための擬似量子回帰フレームワークを提案する。
本モデルは,財務時系列の時間変化特性と非対称ヘビーテール特性の両方をよく捉えている。
論文 参考訳(メタデータ) (2020-10-16T09:35:52Z) - Improving the Robustness of Trading Strategy Backtesting with Boltzmann
Machines and Generative Adversarial Networks [0.0]
この記事では、市場ジェネレータを構築するための機械学習モデルの使用について説明する。
基礎となる考え方は、統計的性質が金融市場に見られるものと同じである人工多次元金融時系列をシミュレートすることである。
そこで本稿では,バックテスト統計の確率分布を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T14:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。