論文の概要: RL-Exec: Impact-Aware Reinforcement Learning for Opportunistic Optimal Liquidation, Outperforms TWAP and a Book-Liquidity VWAP on BTC-USD Replays
- arxiv url: http://arxiv.org/abs/2511.07434v1
- Date: Thu, 30 Oct 2025 20:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.051517
- Title: RL-Exec: Impact-Aware Reinforcement Learning for Opportunistic Optimal Liquidation, Outperforms TWAP and a Book-Liquidity VWAP on BTC-USD Replays
- Title(参考訳): RL-Exec: BTC-USDリプレイにおける最適液化, TWAP, VWAPの性能向上のためのインパクト認識強化学習
- Authors: Enzo Duflot, Stanislas Robineau,
- Abstract要約: BTC-USD制限順序書(LOB)の固定期限における最適清算法について検討する。
内因性過渡的影響(レジリエンス)を増強したPPOエージェントRL-Execについて紹介する。
RL-Execは両方のベースラインを著しく上回り、そのギャップは実行地平線で増大する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study opportunistic optimal liquidation over fixed deadlines on BTC-USD limit-order books (LOB). We present RL-Exec, a PPO agent trained on historical replays augmented with endogenous transient impact (resilience), partial fills, maker/taker fees, and latency. The policy observes depth-20 LOB features plus microstructure indicators and acts under a sell-only inventory constraint to reach a residual target. Evaluation follows a strict time split (train: Jan-2020; test: Feb-2020) and a per-day protocol: for each test day we run ten independent start times and aggregate to a single daily score, avoiding pseudo-replication. We compare the agent to (i) TWAP and (ii) a VWAP-like baseline allocating using opposite-side order-book liquidity (top-20 levels), both executed on identical timestamps and costs. Statistical inference uses one-sided Wilcoxon signed-rank tests on daily RL-baseline differences with Benjamini-Hochberg FDR correction and bootstrap confidence intervals. On the Feb-2020 test set, RL-Exec significantly outperforms both baselines and the gap increases with the execution horizon (+2-3 bps at 30 min, +7-8 bps at 60 min, +23 bps at 120 min). Code: github.com/Giafferri/RL-Exec
- Abstract(参考訳): BTC-USD制限順序書(LOB)の固定期限における最適清算について検討した。
RL-Execは、内因性過渡的影響(レジリエンス)、部分充填、メーカー/テッカー料金、遅延で強化された履歴再生を訓練したPPOエージェントである。
この政策は、深度20LOBの特徴とミクロ構造指標を観察し、残留目標に達するために販売のみの在庫制限の下で機能する。
評価は厳格な時間分割(トレーニング: Jan-2020; テスト: 2.b-2020; テスト: 2.b-2020; 日毎のプロトコル)と続く。
私たちはエージェントを比較します
(i)TWAPおよび
(II)VWAPライクなベースラインが対面注文帳の流動性(トップ20レベル)でアロケートされ、どちらも同一のタイムスタンプとコストで実行される。
統計的推測では、毎日のRLベースライン差に対する片側ウィルコクソン符号付け試験と、ベンジャミン・ホックバーグFDR補正とブートストラップ信頼区間との差を用いる。
Feb-2020テストセットでは、RL-Execは両方のベースラインを著しく上回り、実行地平線でギャップが増大する(30分で+2-3 bps、60分で+7-8 bps、120分で+23 bps)。
コード:github.com/Giafferri/RL-Exec
関連論文リスト
- Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Temporal Conformal Prediction (TCP): A Distribution-Free Statistical and Machine Learning Framework for Adaptive Risk Forecasting [0.0]
TCPは、非定常時系列において、よく校正された予測間隔を構築するための分散フリーフレームワークである。
TCPは、ローリングウィンドウ上に分割等角キャリブレーション層を持つ現代の量子予測器を結合する。
危機風の可視化では、TCP/TCP-RMが膨張し、すぐに間隔帯をボラティリティのスパイクと後退として収縮する。
論文 参考訳(メタデータ) (2025-07-07T20:44:31Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - TTRL: Test-Time Reinforcement Learning [31.351608137721875]
TTRL(Test-Time Reinforcement Learning)は、ラベルのないデータに基づいて大規模言語モデル(LLM)を訓練する新しい手法である。
実験の結果,TTRLは様々なタスクやモデルに対して一貫して性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-04-22T17:59:56Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。