論文の概要: End-to-End Policy Learning of a Statistical Arbitrage Autoencoder
Architecture
- arxiv url: http://arxiv.org/abs/2402.08233v1
- Date: Tue, 13 Feb 2024 05:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 16:33:00.875035
- Title: End-to-End Policy Learning of a Statistical Arbitrage Autoencoder
Architecture
- Title(参考訳): 統計的任意オートエンコーダアーキテクチャのエンドツーエンド政策学習
- Authors: Fabian Krause, Jan-Peter Calliess
- Abstract要約: 統計的アービタージュ(StatArb)におけるオートエンコーダアーキテクチャの有用性について検討する。
我々は、Ornstein-Uhlenbeck(OU)プロセスに基づいた取引戦略を導出するために、米国株のリターンに基づいて訓練された標準のAutoencoderを使用します。
政策学習アプローチを採用し、ポートフォリオトレーディングポリシの空間のニューラルネットワーク表現にAutoencoderネットワークを組み込む。
- 参考スコア(独自算出の注目度): 0.5439020425818999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Statistical Arbitrage (StatArb), classical mean reversion trading
strategies typically hinge on asset-pricing or PCA based models to identify the
mean of a synthetic asset. Once such a (linear) model is identified, a separate
mean reversion strategy is then devised to generate a trading signal. With a
view of generalising such an approach and turning it truly data-driven, we
study the utility of Autoencoder architectures in StatArb. As a first approach,
we employ a standard Autoencoder trained on US stock returns to derive trading
strategies based on the Ornstein-Uhlenbeck (OU) process. To further enhance
this model, we take a policy-learning approach and embed the Autoencoder
network into a neural network representation of a space of portfolio trading
policies. This integration outputs portfolio allocations directly and is
end-to-end trainable by backpropagation of the risk-adjusted returns of the
neural policy. Our findings demonstrate that this innovative end-to-end policy
learning approach not only simplifies the strategy development process, but
also yields superior gross returns over its competitors illustrating the
potential of end-to-end training over classical two-stage approaches.
- Abstract(参考訳): 統計アービタージュ(StatArb)では、古典的な平均回帰トレーディング戦略は、通常、合成資産の平均を特定するために、資産価格またはPCAベースのモデルにヒンジする。
そのような(線形)モデルが特定されると、トレーディング信号を生成するために別の平均反転戦略が考案される。
このようなアプローチを一般化し、真にデータ駆動にすることで、statarbにおけるオートエンコーダアーキテクチャの有用性を探求する。
最初のアプローチとして、米国株のリターンに基づいて訓練された標準のAutoencoderを使用して、Ornstein-Uhlenbeck(OU)プロセスに基づいたトレーディング戦略を導出する。
このモデルをさらに強化するために、ポリシー学習アプローチを採用し、ポートフォリオ取引ポリシーの空間のニューラルネットワーク表現にAutoencoderネットワークを組み込む。
この統合は、ポートフォリオアロケーションを直接出力し、ニューラルネットワークポリシのリスク調整されたリターンのバックプロパゲーションによってエンドツーエンドでトレーニング可能である。
本研究は,この革新的なエンドツーエンド政策学習アプローチが戦略開発プロセスを単純化するだけでなく,古典的な2段階アプローチに対するエンドツーエンドトレーニングの可能性を示すコンペティターよりも優れた総利益をもたらすことを示した。
関連論文リスト
- Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - Deep Inventory Management [3.578617477295742]
本稿では,定期的な在庫管理システムを実現するための深層強化学習手法を提案する。
いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、あるいは競争的であることを示す。
論文 参考訳(メタデータ) (2022-10-06T18:00:25Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - An intelligent algorithmic trading based on a risk-return reinforcement
learning algorithm [0.0]
本稿では,改良された深部強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。
提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題はポートフォリオ累積リターンの分布を学習することである。
Ape-xと呼ばれるマルチプロセスを用いて、深層強化学習訓練の高速化を図る。
論文 参考訳(メタデータ) (2022-08-23T03:20:06Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - Machine learning method for return direction forecasting of Exchange
Traded Funds using classification and regression models [0.0]
本稿では、ETF(Exchange Traded Funds)からのリターンの方向分析のための機械学習手法の提案と適用を目的とする。
ブラジルとアメリカの市場の標準データセットを使用して、回帰モデルと分類モデルを適用した。
リスクとリターンの面では、主にコントロールメトリクスよりもパフォーマンスが優れています。
論文 参考訳(メタデータ) (2022-05-25T12:54:46Z) - Federated Learning Aggregation: New Robust Algorithms with Guarantees [63.96013144017572]
エッジでの分散モデルトレーニングのために、フェデレートラーニングが最近提案されている。
本稿では,連合学習フレームワークにおける集約戦略を評価するために,完全な数学的収束解析を提案する。
損失の値に応じてクライアントのコントリビューションを差別化することで、モデルアーキテクチャを変更できる新しい集約アルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-05-22T16:37:53Z) - Minimax Model Learning [42.65032356835701]
モデルに基づく強化学習における遷移モデル学習のための新しいオフポリシ損失関数を提案する。
私たちの損失は、分配シフトの修正に重点を置いたオフポリシ政策評価目標に由来します。
論文 参考訳(メタデータ) (2021-03-02T23:16:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-Based Machine Learning for Communications [110.47840878388453]
モデルベースのアルゴリズムと機械学習をハイレベルな視点で組み合わせるための既存の戦略を見直します。
通信受信機の基本的なタスクの一つであるシンボル検出に注目する。
論文 参考訳(メタデータ) (2021-01-12T19:55:34Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。