論文の概要: Statistical Learning with Sublinear Regret of Propagator Models
- arxiv url: http://arxiv.org/abs/2301.05157v2
- Date: Wed, 22 Jan 2025 00:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:28.550594
- Title: Statistical Learning with Sublinear Regret of Propagator Models
- Title(参考訳): プロパゲータモデルの線形正規化による統計的学習
- Authors: Eyal Neuman, Yufei Zhang,
- Abstract要約: 本稿では,未知の畳み込みプロパゲータによって駆動される過渡的な衝撃価格と,未知のパラメータを持つ線形仮的衝撃価格の両方を作成しながら,エージェントが危険資産を清算する学習問題を考察する。
本稿では,探索と搾取を交互に行うトレーディングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.1755820123640612
- License:
- Abstract: We consider a class of learning problems in which an agent liquidates a risky asset while creating both transient price impact driven by an unknown convolution propagator and linear temporary price impact with an unknown parameter. We characterize the trader's performance as maximization of a revenue-risk functional, where the trader also exploits available information on a price predicting signal. We present a trading algorithm that alternates between exploration and exploitation phases and achieves sublinear regrets with high probability. For the exploration phase we propose a novel approach for non-parametric estimation of the price impact kernel by observing only the visible price process and derive sharp bounds on the convergence rate, which are characterised by the singularity of the propagator. These kernel estimation methods extend existing methods from the area of Tikhonov regularisation for inverse problems and are of independent interest. The bound on the regret in the exploitation phase is obtained by deriving stability results for the optimizer and value function of the associated class of infinite-dimensional stochastic control problems. As a complementary result we propose a regression-based algorithm to estimate the conditional expectation of non-Markovian signals and derive its convergence rate.
- Abstract(参考訳): 本稿では,未知の畳み込みプロパゲータによる過渡的価格影響と,未知のパラメータによる線形的一時的価格影響を両立させながら,エージェントがリスク資産を清算する学習問題を考察する。
我々は、トレーダーのパフォーマンスを収益リスク関数の最大化として特徴付け、トレーダーは価格予測信号の利用可能な情報も活用する。
本稿では,探索段階と搾取段階を交互に行う取引アルゴリズムを提案する。
探索段階では,可視価格過程のみを観察し,プロパゲータの特異性によって特徴付けられる収束率の急激な境界を導出することにより,価格影響カーネルの非パラメトリック推定手法を提案する。
これらのカーネル推定法は、逆問題に対するTikhonov正則化領域から既存の手法を拡張し、独立した関心を持つ。
無限次元確率制御問題の関連クラスのオプティマイザに対する安定性と値関数を導出することにより、悪用相における後悔への束縛が得られる。
相補的な結果として、非マルコフ信号の条件予測を推定し、収束率を導出する回帰に基づくアルゴリズムを提案する。
関連論文リスト
- Continuous-time Risk-sensitive Reinforcement Learning via Quadratic Variation Penalty [5.710971447109951]
本稿では,連続時間リスク感応性強化学習(RL)について検討する。
従来の政策勾配表現は2次変動の非線形性に起因するリスク感受性問題には不十分である。
本稿では,メルトンの投資問題に対する提案アルゴリズムの収束性を証明し,学習過程の挙動に対する温度パラメータの影響を定量化する。
論文 参考訳(メタデータ) (2024-04-19T03:05:41Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - An Offline Learning Approach to Propagator Models [3.1755820123640612]
まず、静的データセットから未知の価格影響カーネルを推定するエージェントに対して、オフラインで学習する問題を考察する。
本稿では,価格トラジェクトリ,トレーディング信号,メタオーダーを含むデータセットからプロパゲータを非パラメトリックに推定する手法を提案する。
提案手法では,提案手法を純粋に活用することで,実行コストを最小化しようとするトレーダーが準最適に遭遇することを示す。
論文 参考訳(メタデータ) (2023-09-06T13:36:43Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Nonparametric Linear Feature Learning in Regression Through Regularisation [0.0]
連立線形特徴学習と非パラメトリック関数推定のための新しい手法を提案する。
代替最小化を用いることで、データを反復的に回転させ、先頭方向との整合性を改善する。
提案手法の予測リスクは,最小限の仮定と明示的なレートで最小限のリスクに収束することを確認した。
論文 参考訳(メタデータ) (2023-07-24T12:52:55Z) - A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文 参考訳(メタデータ) (2023-04-11T09:13:17Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Exploration-exploitation trade-off for continuous-time episodic
reinforcement learning with linear-convex models [2.503869683354711]
線形動的だが未知の係数と凸を持つ有限時間地平面制御問題について検討する。
この性能ギャップが2次的である条件を特定し、最近の作業における線形性能ギャップを改善する。
次に、探索・探索トレードオフを最適化し、サブ線形後悔を実現するための位相ベース学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-19T21:47:04Z) - Orthogonal Statistical Learning [49.55515683387805]
人口リスクが未知のニュアンスパラメータに依存するような環境では,統計学習における非漸近的過剰リスク保証を提供する。
人口リスクがNeymanityと呼ばれる条件を満たす場合,メタアルゴリズムによって達成される過剰リスクに対するニュアンス推定誤差の影響は2次であることを示す。
論文 参考訳(メタデータ) (2019-01-25T02:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。