Fugu-MT 論文翻訳(概要): JAX-LOB: A GPU-Accelerated limit order book simulator to unlock large scale reinforcement learning for trading

論文の概要: JAX-LOB: A GPU-Accelerated limit order book simulator to unlock large scale reinforcement learning for trading

arxiv url: http://arxiv.org/abs/2308.13289v1
Date: Fri, 25 Aug 2023 10:26:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 14:20:53.762183
Title: JAX-LOB: A GPU-Accelerated limit order book simulator to unlock large scale reinforcement learning for trading
Title（参考訳）: JAX-LOB:取引用大規模強化学習を開放するGPU加速リミットオーダーブックシミュレータ
Authors: Sascha Frey, Kang Li, Peer Nagy, Silvia Sapora, Chris Lu, Stefan Zohren, Jakob Foerster and Anisoara Calinescu
Abstract要約: 金融取引所はリミット・オーダー・ブック(LOB)を使用して注文を処理し、取引にマッチする。多くのアプリケーションでは、ABMの校正やRLエージェントの訓練のために複数の書籍を処理する必要がある。我々は,数千冊の書籍を並列に処理できるGPU対応LOBシミュレータを初めて紹介し,メッセージ単位の処理時間を著しく短縮した。
参考スコア（独自算出の注目度）: 8.884142720013081
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Financial exchanges across the world use limit order books (LOBs) to process orders and match trades. For research purposes it is important to have large scale efficient simulators of LOB dynamics. LOB simulators have previously been implemented in the context of agent-based models (ABMs), reinforcement learning (RL) environments, and generative models, processing order flows from historical data sets and hand-crafted agents alike. For many applications, there is a requirement for processing multiple books, either for the calibration of ABMs or for the training of RL agents. We showcase the first GPU-enabled LOB simulator designed to process thousands of books in parallel, with a notably reduced per-message processing time. The implementation of our simulator - JAX-LOB - is based on design choices that aim to best exploit the powers of JAX without compromising on the realism of LOB-related mechanisms. We integrate JAX-LOB with other JAX packages, to provide an example of how one may address an optimal execution problem with reinforcement learning, and to share some preliminary results from end-to-end RL training on GPUs.
Abstract（参考訳）: 世界中の金融取引所は注文の処理や取引のマッチングに限定注文書(lob)を使用している。研究目的のためには、LOBダイナミクスの大規模効率的なシミュレータを持つことが重要である。 LOBシミュレータは、エージェントベースモデル(ABM)、強化学習(RL)環境、生成モデル、過去のデータセットや手作りエージェントからの注文フローの処理といった文脈で実装されている。多くのアプリケーションでは、ABMの校正やRLエージェントの訓練のために複数の書籍を処理する必要がある。我々は,数千冊の書籍を並列に処理できるGPU対応LOBシミュレータを初めて紹介し,メッセージ単位の処理時間を著しく短縮した。我々のシミュレータ - JAX-LOB の実装は、LOB 関連メカニズムの現実性を損なうことなく JAX の力を最大限活用することを目的とした設計選択に基づいている。 JAX-LOBを他のJAXパッケージと統合し、強化学習で最適な実行問題に対処する方法の例を示し、GPU上でのエンドツーエンドRLトレーニングの予備的な結果を共有する。

関連論文リスト

TABX: A High-Throughput Sandbox Battle Simulator for Multi-Agent Reinforcement Learning [4.254850120280717]
我々は、再構成可能なマルチエージェントタスクのために、JAX (TABX) におけるトータル・アクセラレーション・バトルシミュレータを導入する。 TABXは大規模な並列化を可能にし、計算オーバーヘッドを大幅に削減する。高速でスケーラブルで簡単にカスタマイズできるフレームワークを提供することで、TABXは将来の研究のためのスケーラブルな基盤となる。
論文参考訳（メタデータ） (2026-02-02T05:34:38Z)
DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文参考訳（メタデータ） (2025-12-23T08:33:19Z)
Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文参考訳（メタデータ） (2025-09-01T18:04:10Z)
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [26.103555014247117]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文参考訳（メタデータ） (2025-05-30T07:18:25Z)
Phantora: Maximizing Code Reuse in Simulation-based Machine Learning System Performance Estimation [13.326000659635378]
Phantoraは、機械学習トレーニングワークロードのパフォーマンス見積のための、ハイブリッドGPUクラスタシミュレータである。 MLフレームワークのソースコードをシミュレーションで直接再利用することが可能で、再実装の必要がなくなる。 Phantoraは最先端のトレーニングフレームワークを3つサポートしている。
論文参考訳（メタデータ） (2025-05-02T22:36:24Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation [11.360832156847103]
本稿では,剛体や変形物を含むタスクにおけるRLのスケーリングを実現するための,新しいRLアルゴリズムとシミュレーションプラットフォームを提案する。我々は,最大エントロピー1次モデルに基づくRLアルゴリズムであるSoft Analytic Policy (SAPO)を導入する。また,剛体以外の様々な材料を模擬する並列微分可能多物理シミュレーションプラットフォームであるRewarpedを開発した。
論文参考訳（メタデータ） (2024-12-16T18:56:24Z)
Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [48.17611255751571]
ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
論文参考訳（メタデータ） (2024-10-18T08:01:39Z)
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文参考訳（メタデータ） (2023-11-16T18:58:43Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Brax -- A Differentiable Physics Engine for Large Scale Rigid Body Simulation [33.36244621210259]
JAXで書かれた剛体シミュレーションのためのオープンソースのライブラリであるBraxを紹介します。既存の強化学習文献にインスパイアされた一連のタスクについて結果を提示するが、エンジンで再作成する。
論文参考訳（メタデータ） (2021-06-24T19:09:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。