Fugu-MT 論文翻訳(概要): Optimal Execution with Reinforcement Learning

論文の概要: Optimal Execution with Reinforcement Learning

arxiv url: http://arxiv.org/abs/2411.06389v1
Date: Sun, 10 Nov 2024 08:21:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.189065
Title: Optimal Execution with Reinforcement Learning
Title（参考訳）: 強化学習による最適実行
Authors: Yadh Hafsi, Edoardo Vittori,
Abstract要約: 本研究では,強化学習による最適実行戦略の開発について検討する。本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
参考スコア（独自算出の注目度）: 0.4972323953932129
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates the development of an optimal execution strategy through reinforcement learning, aiming to determine the most effective approach for traders to buy and sell inventory within a limited time frame. Our proposed model leverages input features derived from the current state of the limit order book. To simulate this environment and overcome the limitations associated with relying on historical data, we utilize the multi-agent market simulator ABIDES, which provides a diverse range of depth levels within the limit order book. We present a custom MDP formulation followed by the results of our methodology and benchmark the performance against standard execution strategies. Our findings suggest that the reinforcement learning-based approach demonstrates significant potential.
Abstract（参考訳）: 本研究では,限られた時間枠で在庫を売買する取引業者にとって,最も効果的な方法を決定することを目的とした,強化学習による最適実行戦略の開発について検討する。提案モデルでは,制限順序帳の現在の状態から得られる入力特徴を活用している。この環境をシミュレートし、過去のデータに依存した制限を克服するために、制限順序帳内に様々な深さレベルを提供するマルチエージェント市場シミュレータABIDESを利用する。本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。本研究は,強化学習に基づくアプローチが有意な可能性を示唆している。

関連論文リスト

Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。悲惨な忘れ物はモデルパフォーマンスを著しく損なう本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文参考訳（メタデータ） (2025-01-21T13:33:45Z)
NEAT Algorithm-based Stock Trading Strategy with Multiple Technical Indicators Resonance [0.8158530638728501]
複数の技術指標を用いた株式取引にNEAT(NeuroEvolution of Augmenting Topologies)アルゴリズムを適用した。当社のアプローチは、収益を最大化し、リスクを回避し、バイアンドホールド戦略を上回ることに重点を置いています。本研究の結果から,NEATモデルはバイヤー・アンド・ホールド戦略と同様のリターンを得たが,リスク露光が低く,安定性が向上した。
論文参考訳（メタデータ） (2024-12-11T05:42:15Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文参考訳（メタデータ） (2024-06-30T19:00:49Z)
Deep Limit Order Book Forecasting [2.771933807499954]
我々は、最先端の深層学習手法を利用して、高頻度リミットオーダーブックの中間価格変化の予測可能性を探る。大規模なリミットオーダーブックデータを効率的に処理するオープンソースコードベースであるLOBFrame'をリリースする。
論文参考訳（メタデータ） (2024-03-14T10:44:10Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
LOB-Based Deep Learning Models for Stock Price Trend Prediction: A Benchmark Study [4.714825039388054]
我々は、データ前処理、DLモデルトレーニング、評価、利益分析を組み込んだオープンソースのフレームワークを開発する。実験の結果,すべてのモデルが新たなデータに曝露した場合,大幅な性能低下を示し,実際の市場適用可能性に関する疑問が提起された。
論文参考訳（メタデータ） (2023-07-05T14:28:38Z)
Optimizing Credit Limit Adjustments Under Adversarial Goals Using Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文参考訳（メタデータ） (2023-06-27T16:10:36Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Deep Inventory Management [3.578617477295742]
本稿では,定期的な在庫管理システムを実現するための深層強化学習手法を提案する。いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、あるいは競争的であることを示す。
論文参考訳（メタデータ） (2022-10-06T18:00:25Z)
Techniques Toward Optimizing Viewability in RTB Ad Campaigns Using Reinforcement Learning [0.0]
強化学習(Reinforcement Learning, RL)は、環境との相互作用を通じて意思決定エージェントを訓練する効果的な手法である。デジタル広告において、リアルタイム入札(Real-time bidding、RTB)は、リアルタイムオークションを通じて広告インベントリを割り当てる一般的な方法である。
論文参考訳（メタデータ） (2021-05-21T21:56:12Z)
Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文参考訳（メタデータ） (2021-01-28T05:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。