Fugu-MT 論文翻訳(概要): Model-based gym environments for limit order book trading

論文の概要: Model-based gym environments for limit order book trading

arxiv url: http://arxiv.org/abs/2209.07823v1
Date: Fri, 16 Sep 2022 09:42:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 17:35:48.940856
Title: Model-based gym environments for limit order book trading
Title（参考訳）: リミットオーダーブックトレーディングのためのモデルベースジム環境
Authors: Joseph Jerome, Leandro Sanchez-Betancourt, Rahul Savani, Martin Herdegen
Abstract要約: 本稿では、強化学習(RL)エージェントをトレーニングするためのジム環境のスイートを提供するPythonモジュールmbtgymを紹介する。数理ファイナンスにおけるモデルベースリミットオーダーブック問題の解決にRLを用いるという課題を動機付けている。
参考スコア（独自算出の注目度）: 1.8899300124593648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Within the mathematical finance literature there is a rich catalogue of mathematical models for studying algorithmic trading problems -- such as market-making and optimal execution -- in limit order books. This paper introduces \mbtgym, a Python module that provides a suite of gym environments for training reinforcement learning (RL) agents to solve such model-based trading problems. The module is set up in an extensible way to allow the combination of different aspects of different models. It supports highly efficient implementations of vectorized environments to allow faster training of RL agents. In this paper, we motivate the challenge of using RL to solve such model-based limit order book problems in mathematical finance, we explain the design of our gym environment, and then demonstrate its use in solving standard and non-standard problems from the literature. Finally, we lay out a roadmap for further development of our module, which we provide as an open source repository on GitHub so that it can serve as a focal point for RL research in model-based algorithmic trading.
Abstract（参考訳）: 数理ファイナンス文学には、リミット・オーダー・ブックに、市場作りや最適な実行といったアルゴリズム的取引問題を研究するための数学モデルの豊富なカタログがある。本稿では,強化学習(rl)エージェントをトレーニングするためのジム環境のスイートを提供するpythonモジュールである \mbtgymについて紹介する。モジュールは、異なるモデルの異なる側面の組み合わせを可能にする拡張可能な方法で設定される。ベクトル化環境の高効率実装をサポートし、RLエージェントの高速なトレーニングを可能にする。本稿では,RLを用いて数理金融におけるモデルに基づくリミットオーダーブック問題を解くことの課題を動機付け,体育館環境の設計を説明し,文献から標準および非標準問題の解法を実証する。最後に、私たちは、モデルベースのアルゴリズム取引におけるrl研究の焦点となるように、githubのオープンソースリポジトリとして提供する、モジュールのさらなる開発のためのロードマップを作成しました。

関連論文リスト

JT-Math: A Multi-Stage Framework for Advanced Mathematical Reasoning in Large Language Models [15.054016881151254]
本稿では,ベース,インストラクション,思考バージョンで構成される一連のオープンソースモデルであるJT-Math-8Bを紹介する。 Instruct Model は Supervised Fine-Tuning (SFT) と GRPO-based reinforcement learning (RL) によって直接的かつ簡潔な回答に最適化されている。思考モデルは、Long Chain-of-Thought (Long CoT)アプローチを用いて、SFTと新しい多段階RLカリキュラムを組み合わせた複雑な問題解決のために訓練されている。
論文参考訳（メタデータ） (2025-07-26T02:45:10Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Maximizing Confidence Alone Improves Reasoning [48.83927980325788]
RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文参考訳（メタデータ） (2025-05-28T17:59:37Z)
RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-12-10T17:06:41Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文参考訳（メタデータ） (2024-08-14T16:58:48Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Oracle Inequalities for Model Selection in Offline Reinforcement Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文参考訳（メタデータ） (2022-11-03T17:32:34Z)
FinRL: Deep Reinforcement Learning Framework to Automate Trading in Quantitative Finance [22.808509136431645]
深層強化学習(DRL)は、量的ファイナンスにおいて競争力を持つと想定されている。本稿では,オープンソースのフレームワーク textitFinRL を,量的トレーダーが学習曲線の急勾配を克服するのに役立つための完全なパイプラインとして提示する。
論文参考訳（メタデータ） (2021-11-07T00:34:32Z)
Reinforcement Learning for Mean Field Games, with Applications to Economics [0.0]
平均場ゲーム(MFG)および平均場制御問題(平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題、平均場制御問題)は、エージェントの連続体を持つゲームにおいてナッシュ平衡または社会的最適性を研究するためのフレームワークである。本稿では,MFGとMFCのためのRLを用いた2つの時間スケールアプローチを提案する。
論文参考訳（メタデータ） (2021-06-25T16:45:04Z)
Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文参考訳（メタデータ） (2021-03-26T11:32:27Z)
Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文参考訳（メタデータ） (2021-02-07T17:56:50Z)
OR-Gym: A Reinforcement Learning Library for Operations Research Problems [0.0]
我々は,運用研究問題に対処する強化学習アルゴリズムを開発するためのオープンソースライブラリOR-Gymを紹介する。本稿では,knapsackの強化学習,多次元ビンパッキング,複数エケロン供給チェーン,多周期アセットアロケーションモデル問題に適用する。
論文参考訳（メタデータ） (2020-08-14T12:21:22Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。