論文の概要: Statistical Learning with Sublinear Regret of Propagator Models
- arxiv url: http://arxiv.org/abs/2301.05157v1
- Date: Thu, 12 Jan 2023 17:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:10:58.893881
- Title: Statistical Learning with Sublinear Regret of Propagator Models
- Title(参考訳): プロパゲータモデルの半線形後悔による統計的学習
- Authors: Eyal Neuman, Yufei Zhang
- Abstract要約: 本稿では,未知の畳み込みプロパゲータによって駆動される過渡的な衝撃価格と,未知のパラメータを持つ線形仮的衝撃価格の両方を作成しながら,エージェントが危険資産を清算する学習問題を考察する。
本稿では,探索と搾取を交互に行うトレーディングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.9628715114493502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a class of learning problems in which an agent liquidates a risky
asset while creating both transient price impact driven by an unknown
convolution propagator and linear temporary price impact with an unknown
parameter. We characterize the trader's performance as maximization of a
revenue-risk functional, where the trader also exploits available information
on a price predicting signal. We present a trading algorithm that alternates
between exploration and exploitation phases and achieves sublinear regrets with
high probability. For the exploration phase we propose a novel approach for
non-parametric estimation of the price impact kernel by observing only the
visible price process and derive sharp bounds on the convergence rate, which
are characterised by the singularity of the propagator. These kernel estimation
methods extend existing methods from the area of Tikhonov regularisation for
inverse problems and are of independent interest. The bound on the regret in
the exploitation phase is obtained by deriving stability results for the
optimizer and value function of the associated class of infinite-dimensional
stochastic control problems. As a complementary result we propose a
regression-based algorithm to estimate the conditional expectation of
non-Markovian signals and derive its convergence rate.
- Abstract(参考訳): 本研究では,未知の畳み込みプロパゲータによる過渡的価格影響と,未知のパラメータによる線形一時的価格影響を両立させながら,エージェントがリスク資産を清算する学習問題を考察する。
我々はトレーダーのパフォーマンスを収益リスク関数の最大化として特徴付け、トレーダーは価格予測信号の利用可能な情報も活用する。
本稿では,探索フェーズと搾取フェーズを交互に切り替え,高い確率でサブリニア後悔を実現するトレーディングアルゴリズムを提案する。
探索フェーズでは,可視価格過程のみを観測し,プロパゲータの特異性によって特徴付けられる収束率の鋭い境界を導出することにより,価格影響カーネルの非パラメトリックな推定手法を提案する。
これらのカーネル推定法は、逆問題に対するTikhonov正則化領域から既存の手法を拡張し、独立した関心を持つ。
無限次元確率制御問題の関連するクラスの最適化器と値関数の安定性結果を導出することにより、搾取相における後悔の束縛が得られる。
相補的な結果として、非マルコフ信号の条件予測を推定し、収束率を導出する回帰に基づくアルゴリズムを提案する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - An Offline Learning Approach to Propagator Models [3.1755820123640612]
まず、静的データセットから未知の価格影響カーネルを推定するエージェントに対して、オフラインで学習する問題を考察する。
本稿では,価格トラジェクトリ,トレーディング信号,メタオーダーを含むデータセットからプロパゲータを非パラメトリックに推定する手法を提案する。
提案手法では,提案手法を純粋に活用することで,実行コストを最小化しようとするトレーダーが準最適に遭遇することを示す。
論文 参考訳(メタデータ) (2023-09-06T13:36:43Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - On the Pitfalls of Heteroscedastic Uncertainty Estimation with
Probabilistic Neural Networks [23.502721524477444]
このアプローチがいかにして非常に貧弱だが安定な推定に繋がるかを示す合成例を示す。
問題を悪化させる特定の条件とともに、犯人をログライクな損失とみなす。
我々は、損失に対する各データポイントの寄与を、$beta$-exponentiated variance estimateによって重み付けする、$beta$-NLLと呼ばれる別の定式化を提案する。
論文 参考訳(メタデータ) (2022-03-17T08:46:17Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Exploration-exploitation trade-off for continuous-time episodic
reinforcement learning with linear-convex models [2.503869683354711]
線形動的だが未知の係数と凸を持つ有限時間地平面制御問題について検討する。
この性能ギャップが2次的である条件を特定し、最近の作業における線形性能ギャップを改善する。
次に、探索・探索トレードオフを最適化し、サブ線形後悔を実現するための位相ベース学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-19T21:47:04Z) - Orthogonal Statistical Learning [49.55515683387805]
人口リスクが未知のニュアンスパラメータに依存するような環境では,統計学習における非漸近的過剰リスク保証を提供する。
人口リスクがNeymanityと呼ばれる条件を満たす場合,メタアルゴリズムによって達成される過剰リスクに対するニュアンス推定誤差の影響は2次であることを示す。
論文 参考訳(メタデータ) (2019-01-25T02:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。