論文の概要: ByteGen: A Tokenizer-Free Generative Model for Orderbook Events in Byte Space
- arxiv url: http://arxiv.org/abs/2508.02247v2
- Date: Thu, 07 Aug 2025 04:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 11:49:27.087114
- Title: ByteGen: A Tokenizer-Free Generative Model for Orderbook Events in Byte Space
- Title(参考訳): ByteGen: Byte空間におけるオーダーブックイベントのトケナイザフリー生成モデル
- Authors: Yang Li, Zhi Chen,
- Abstract要約: LOBイベントの生のバイトストリームを直接操作する新しい生成モデルByteGenを紹介する。
私たちの仕事は、機能エンジニアリングとトークン化の完全な排除であり、モデルが最も基本的な表現から市場のダイナミクスを学べるようにします。
ByteGenは、金融市場の重要な事実を再現し、現実的な価格分布、大口リターン、バーストイベントのタイミングを生成する。
- 参考スコア(独自算出の注目度): 11.523583937607622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative modeling of high-frequency limit order book (LOB) dynamics is a critical yet unsolved challenge in quantitative finance, essential for robust market simulation and strategy backtesting. Existing approaches are often constrained by simplifying stochastic assumptions or, in the case of modern deep learning models like Transformers, rely on tokenization schemes that affect the high-precision, numerical nature of financial data through discretization and binning. To address these limitations, we introduce ByteGen, a novel generative model that operates directly on the raw byte streams of LOB events. Our approach treats the problem as an autoregressive next-byte prediction task, for which we design a compact and efficient 32-byte packed binary format to represent market messages without information loss. The core novelty of our work is the complete elimination of feature engineering and tokenization, enabling the model to learn market dynamics from its most fundamental representation. We achieve this by adapting the H-Net architecture, a hybrid Mamba-Transformer model that uses a dynamic chunking mechanism to discover the inherent structure of market messages without predefined rules. Our primary contributions are: 1) the first end-to-end, byte-level framework for LOB modeling; 2) an efficient packed data representation; and 3) a comprehensive evaluation on high-frequency data. Trained on over 34 million events from CME Bitcoin futures, ByteGen successfully reproduces key stylized facts of financial markets, generating realistic price distributions, heavy-tailed returns, and bursty event timing. Our findings demonstrate that learning directly from byte space is a promising and highly flexible paradigm for modeling complex financial systems, achieving competitive performance on standard market quality metrics without the biases of tokenization.
- Abstract(参考訳): 高頻度リミットオーダーブック(LOB)ダイナミクスの生成モデリングは、定量ファイナンスにおいて重要な課題であるが未解決の課題であり、堅牢な市場シミュレーションと戦略バックテストに不可欠である。
既存のアプローチは、確率的な仮定を単純化したり、トランスフォーマーのような現代的なディープラーニングモデルの場合、離散化とバイナリ化による金融データの高精度で数値的な性質に影響を与えるトークン化スキームに依存することで制約されることが多い。
これらの制約に対処するため、我々は、LOBイベントの生のバイトストリームを直接操作する新しい生成モデルByteGenを紹介した。
提案手法は,情報損失のない市場メッセージを表現するために,コンパクトで効率的な32バイトのバイナリフォーマットを設計する,自動回帰的な次世代予測タスクとしてこの問題を扱う。
私たちの研究の中核となる新規性は、機能エンジニアリングとトークン化の完全な排除であり、モデルが最も基本的な表現から市場ダイナミクスを学習できるようにする。
我々は、動的チャンキング機構を用いて、予め定義されたルールを使わずに、市場メッセージの固有の構造を発見するハイブリッドなMamba-TransformerモデルであるH-Netアーキテクチャを適用することで、これを実現する。
私たちの主な貢献は次のとおりです。
1) LOBモデリングのための最初のエンドツーエンドのバイトレベルフレームワーク。
2) 効率的な満載データ表現,及び
3)高周波データに対する包括的評価。
ByteGenは、CME Bitcoinの将来から3400万件以上のイベントをトレーニングし、金融市場の重要なスタイル化された事実を再現し、現実的な価格分布、重み付けされたリターン、バースト的なイベントタイミングを生成することに成功した。
この結果から,バイト空間から直接の学習は,トークン化のバイアスを伴わずに,標準的な市場品質指標上での競争性能を達成し,複雑な金融システムをモデル化するための,有望かつ高柔軟性なパラダイムであることが示唆された。
関連論文リスト
- Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。
本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。
我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文 参考訳(メタデータ) (2025-07-02T14:03:01Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - TRADES: Generating Realistic Market Simulations with Diffusion Models [4.308104021015939]
金融市場は、高い統計ノイズ、非線形性、一定の進化を特徴とする複雑なシステムである。
我々は,現実的で応答性の高いリミットオーダーブック(LOB)市場シミュレーションを作成するタスクに対処する。
LOBシミュレーションのための新しいデノイング拡散確率エンジン(TRADES)を提案する。
論文 参考訳(メタデータ) (2025-01-31T19:43:13Z) - STORM: A Spatio-Temporal Factor Model Based on Dual Vector Quantized Variational Autoencoders for Financial Trading [55.02735046724146]
金融取引では、ファクターモデルが資産の価格設定や過大なリターンの獲得に広く利用されている。
双対ベクトル量子化変分オートエンコーダを用いた時空間ファクトラーモデルSTORMを提案する。
ストームは時間的および空間的な視点からストックの特徴を抽出し、これらの特徴を微細で意味的なレベルで融合し整列させ、その要素を多次元の埋め込みとして表現する。
論文 参考訳(メタデータ) (2024-12-12T17:15:49Z) - MCI-GRU: Stock Prediction Model Based on Multi-Head Cross-Attention and Improved GRU [15.232546605091818]
本稿では,多頭部クロスアテンション機構と改良型GRUに基づくストック予測モデルMCI-GRUを提案する。
4つの主要株式市場での実験では、提案手法は複数の指標でSOTA技術を上回っている。
論文 参考訳(メタデータ) (2024-09-25T14:37:49Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Generative AI for End-to-End Limit Order Book Modelling: A Token-Level
Autoregressive Generative Model of Message Flow Using a Deep State Space
Network [7.54290390842336]
本稿では,トークン化制限順序帳(LOB)メッセージを生成するエンドツーエンドの自動回帰生成モデルを提案する。
NASDAQ の株式 LOB を用いて、メッセージデータのためのカスタムトークン化器を開発し、逐次桁の群をトークンに変換する。
結果は,低モデルパープレキシティによって証明されたように,データの分布を近似する上で有望な性能を示す。
論文 参考訳(メタデータ) (2023-08-23T09:37:22Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Neural Stochastic Agent-Based Limit Order Book Simulation: A Hybrid
Methodology [6.09170287691728]
現代の金融取引所は電子的リミット・オーダー・ブック(LOB)を使用して入札を保管し、特定の金融資産の受注を要求する。
ニューラルポイントモデルを用いて過去のLOBデータに基づいて事前訓練されたニューラルバックグラウンドトレーサによるマーケットイベントのロジックの集約を表現するハイブリッドLOBシミュレーションと、他のトレーサとのマルチエージェントシミュレーションに背景トレーサを組み込んだハイブリッドLOBシミュレーションを提案する。
このスタイル化された事実は残っており、実市場の経験的観察に則った秩序流の影響と財政的放牧行動を示す。
論文 参考訳(メタデータ) (2023-02-28T20:53:39Z) - Transfer Ranking in Finance: Applications to Cross-Sectional Momentum
with Data Scarcity [2.3204178451683264]
本稿では,新しいパラメータ共有転送ランキングモデルであるFused Networksを紹介する。
このモデルは、ソースデータセット上で動作するエンコーダアテンションモジュールを用いて抽出された情報を融合する。
これは、不足対象データに対するトレーニングの結果生じる、一般化可能性の低いモデルの問題を緩和する。
論文 参考訳(メタデータ) (2022-08-21T21:34:11Z) - Bayesian Bilinear Neural Network for Predicting the Mid-price Dynamics
in Limit-Order Book Markets [84.90242084523565]
伝統的な時系列計量法は、価格力学を駆動する多層相互作用の真の複雑さを捉えることができないことが多い。
最先端の2次最適化アルゴリズムを採用することで、時間的注意を払ってベイジアン双線形ニューラルネットワークを訓練する。
予測分布を用いて推定パラメータとモデル予測に関連する誤差や不確実性を解析することにより、ベイズモデルと従来のML代替品を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-07T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。