論文の概要: Reinforced Deep Markov Models With Applications in Automatic Trading
- arxiv url: http://arxiv.org/abs/2011.04391v1
- Date: Mon, 9 Nov 2020 12:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:43:28.192979
- Title: Reinforced Deep Markov Models With Applications in Automatic Trading
- Title(参考訳): 改良型深部マルコフモデルと自動取引への応用
- Authors: Tadeu A. Ferreira
- Abstract要約: 我々はReinforced Deep Markov Model(RDMM)というモデルに基づくRLアプローチを提案する。
RDMMは自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合する。
テストの結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、金銭的利益が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the developments in deep generative models, we propose a
model-based RL approach, coined Reinforced Deep Markov Model (RDMM), designed
to integrate desirable properties of a reinforcement learning algorithm acting
as an automatic trading system. The network architecture allows for the
possibility that market dynamics are partially visible and are potentially
modified by the agent's actions. The RDMM filters incomplete and noisy data, to
create better-behaved input data for RL planning. The policy search
optimisation also properly accounts for state uncertainty. Due to the
complexity of the RKDF model architecture, we performed ablation studies to
understand the contributions of individual components of the approach better.
To test the financial performance of the RDMM we implement policies using
variants of Q-Learning, DynaQ-ARIMA and DynaQ-LSTM algorithms. The experiments
show that the RDMM is data-efficient and provides financial gains compared to
the benchmarks in the optimal execution problem. The performance improvement
becomes more pronounced when price dynamics are more complex, and this has been
demonstrated using real data sets from the limit order book of Facebook, Intel,
Vodafone and Microsoft.
- Abstract(参考訳): 深層生成モデルの開発に触発されて,自動取引システムとして機能する強化学習アルゴリズムの望ましい特性を統合するために,RDMM(Reinforced Deep Markov Model)と呼ばれるモデルベースRLアプローチを提案する。
ネットワークアーキテクチャにより、マーケットダイナミクスが部分的に見え、エージェントのアクションによって変更される可能性がある。
RDMMは不完全でノイズの多いデータをフィルタし、RL計画のためのより良い振る舞いの入力データを生成する。
政策探索の最適化も国家の不確実性を適切に考慮している。
RKDFモデルアーキテクチャの複雑さのため、我々はアプローチの個々のコンポーネントの貢献をよりよく理解するためにアブレーション研究を行った。
RDMMの財務性能をテストするために、Q-Learning、DynaQ-ARIMA、DynaQ-LSTMアルゴリズムの亜種を用いてポリシーを実装している。
実験の結果、RDMMはデータ効率が良く、最適な実行問題のベンチマークと比較すると、経済的利益が得られることがわかった。
Facebook、Intel、Vodafone、Microsoftのリミットオーダーブックの実際のデータセットを使用して、価格ダイナミクスがより複雑になると、パフォーマンスの改善がより顕著になる。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Exploratory Mean-Variance Portfolio Optimization with Regime-Switching Market Dynamics [3.6149777601911097]
本研究では,規制空間内における情報探索を支援するために,制度変更市場設定と強化学習技術の適用について検討する。
実際の市場データ調査では、OC学習を伴うEMVRSは、年次ポートフォリオリターンの最も平均的で合理的に低いボラティリティで、それを上回るパフォーマンスを保っている。
論文 参考訳(メタデータ) (2025-01-28T02:48:41Z) - Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning [10.117626902557927]
Dyna-style off-policy model-based reinforcement learning (DMBRL)アルゴリズムは、合成状態遷移データを生成するための一連の技術である。
本稿では,異なるベンチマーク環境におけるDMBRLアルゴリズムの適用時に観測された驚くべき性能差を同定し,検討する。
論文 参考訳(メタデータ) (2024-12-18T20:25:04Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。