論文の概要: Decomposable Reward Modeling and Realistic Environment Design for Reinforcement Learning-Based Forex Trading
- arxiv url: http://arxiv.org/abs/2604.00031v1
- Date: Fri, 20 Mar 2026 13:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.206229
- Title: Decomposable Reward Modeling and Realistic Environment Design for Reinforcement Learning-Based Forex Trading
- Title(参考訳): 強化学習に基づくForexトレーディングのための分解可能なリワードモデリングと現実的環境設計
- Authors: Nabeel Ahmad Saidd,
- Abstract要約: 本稿では,Forexトレーディングのためのモジュール型強化学習フレームワークを提案する。
これには、厳格なアンチルックアヘッドセマンティクスを強制するフリクション対応実行エンジンが含まれており、時刻 t での観察、時刻 t+1 での実行、時刻 t+1 でのマーク・ツー・マーケットがある。
また、スプレッド、コミッショナー、滑り込み、ロールオーバー・ファイナンス、マージントトリガード・清算といった現実的なコストも取り入れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying reinforcement learning (RL) to foreign exchange (Forex) trading remains challenging because realistic environments, well-defined reward functions, and expressive action spaces must be satisfied simultaneously, yet many prior studies rely on simplified simulators, single scalar rewards, and restricted action representations, limiting both interpretability and practical relevance. This paper presents a modular RL framework designed to address these limitations through three tightly integrated components: a friction-aware execution engine that enforces strict anti-lookahead semantics, with observations at time t, execution at time t+1, and mark-to-market at time t+1, while incorporating realistic costs such as spread, commission, slippage, rollover financing, and margin-triggered liquidation; a decomposable 11-component reward architecture with fixed weights and per-step diagnostic logging to enable systematic ablation and component-level attribution; and a 10-action discrete interface with legal-action masking that encodes explicit trading primitives while enforcing margin-aware feasibility constraints. Empirical evaluation on EURUSD focuses on learning dynamics rather than generalization and reveals strongly non-monotonic reward interactions, where additional penalties do not reliably improve outcomes; the full reward configuration achieves the highest training Sharpe (0.765) and cumulative return (57.09 percent). The expanded action space increases return but also turnover and reduces Sharpe relative to a conservative 3-action baseline, indicating a return-activity trade-off under a fixed training budget, while scaling-enabled variants consistently reduce drawdown, with the combined configuration achieving the strongest endpoint performance.
- Abstract(参考訳): 現実的な環境、明確に定義された報酬関数、表現力のある行動空間を同時に満たさなければならないため、外国為替(Forex)取引に強化学習(RL)を適用することは依然として困難であるが、多くの先行研究は、単純化されたシミュレータ、単一スカラー報酬、制限された行動表現に依存しており、解釈可能性と実践的妥当性の両方を制限している。
本稿では, 時間t, 時間t+1, 時間t+1, 時刻t+1, マーク・トゥ・マーケットといった厳密なアンチ・フォアヘッド・セマンティクスを強制し, スプレッド, コミッショナー, スリップ・スリップ, ロールオーバー・ファイナンス, マージン・トリガード・リサイテーションといった現実的なコストを生かしながら, 時間t+1における観測, 時間t+1における実行, 時間t+1におけるマーク・トゥ・マーケットといった厳密なアンチ・フォアヘッド・セマンティクスを強制するモジュラーRLフレームワークを提案する。
EURUSDの実証的な評価は、一般化よりもダイナミクスの学習に重点を置いており、厳密な非単調な報酬相互作用を示しており、追加の罰則は成果を確実に改善しない。
拡張されたアクション空間はリターンが増大するだけでなく、リターンオーバーも増加し、保守的な3アクションベースラインに対してシャープが減少する。
関連論文リスト
- Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。
GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。
それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-11T08:41:34Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - Safe Langevin Soft Actor Critic [10.683491090059867]
拘束強化学習における報酬と安全性のバランスをとるために,安全ランゲヴィン・ソフト・アクター・クリティカル(SL-SAC)を導入した。
SL-SACは10タスク中7タスクで最低コストを達成し,競争的リターンを維持していることを示す。
Safety-Gymnasiumでは、SL-SACは最先端のベースラインと比較して、速度タスクの19-63%のコスト削減を実現している。
論文 参考訳(メタデータ) (2026-01-31T08:06:35Z) - FoldAct: Efficient and Stable Context Folding for Long-Horizon Search Agents [6.499612808270592]
大規模言語モデルのためのロングホライゾン強化学習(RL)は、コンテキスト成長から重要なスケーラビリティ課題に直面している。
既存のアプローチでは、サマリアクションを標準アクションとして扱い、サマリがエージェントの将来の観測空間を根本的に変更するのを見下ろしている。
本研究は,(1)要約トークンが不十分なトレーニング信号を受ける勾配の希釈,(2)ポリシー更新による要約分布の変更,トレーニング崩壊の悪循環の創出,(3)各ターンで独自のコンテキストを処理することによる計算コストの3つの基本的な課題を紹介する。
論文 参考訳(メタデータ) (2025-12-28T00:24:01Z) - FR-LUX: Friction-Aware, Regime-Conditioned Policy Optimization for Implementable Portfolio Management [4.235667373386689]
取引コストとレギュラーシフトは、紙ポートフォリオが生の取引で失敗する主な理由である。
我々は、コストのかかる貿易政策を学習する強化学習フレームワークFR-LUXを紹介する。
我々は, 対流摩擦下での最適性, KL信頼領域での単調改善, 長期反転境界, 比例コストによる非作用帯域の誘導などの保証を行う。
論文 参考訳(メタデータ) (2025-10-03T13:22:54Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts [25.205293698698867]
我々はNested-ReFTを導入し、ターゲットモデルのサブセットがトレーニング中に非政治的な完了を生成する行動モデルとして機能する。
我々の理論的分析は、Nested-ReFTが制御された分散を伴う非バイアス勾配推定値を得ることを示している。
我々の経験的分析は、複数の数学推論ベンチマークとモデルサイズでトークン/秒として測定された計算効率の改善を実証している。
論文 参考訳(メタデータ) (2025-08-13T18:37:46Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。