論文の概要: FR-LUX: Friction-Aware, Regime-Conditioned Policy Optimization for Implementable Portfolio Management
- arxiv url: http://arxiv.org/abs/2510.02986v1
- Date: Fri, 03 Oct 2025 13:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.395182
- Title: FR-LUX: Friction-Aware, Regime-Conditioned Policy Optimization for Implementable Portfolio Management
- Title(参考訳): FR-LUX: 実装可能なポートフォリオ管理のための摩擦対応・規則付きポリシー最適化
- Authors: Jian'an Zhang,
- Abstract要約: 取引コストとレギュラーシフトは、紙ポートフォリオが生の取引で失敗する主な理由である。
我々は、コストのかかる貿易政策を学習する強化学習フレームワークFR-LUXを紹介する。
我々は, 対流摩擦下での最適性, KL信頼領域での単調改善, 長期反転境界, 比例コストによる非作用帯域の誘導などの保証を行う。
- 参考スコア(独自算出の注目度): 4.235667373386689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transaction costs and regime shifts are major reasons why paper portfolios fail in live trading. We introduce FR-LUX (Friction-aware, Regime-conditioned Learning under eXecution costs), a reinforcement learning framework that learns after-cost trading policies and remains robust across volatility-liquidity regimes. FR-LUX integrates three ingredients: (i) a microstructure-consistent execution model combining proportional and impact costs, directly embedded in the reward; (ii) a trade-space trust region that constrains changes in inventory flow rather than logits, yielding stable low-turnover updates; and (iii) explicit regime conditioning so the policy specializes to LL/LH/HL/HH states without fragmenting the data. On a 4 x 5 grid of regimes and cost levels with multiple random seeds, FR-LUX achieves the top average Sharpe ratio with narrow bootstrap confidence intervals, maintains a flatter cost-performance slope than strong baselines, and attains superior risk-return efficiency for a given turnover budget. Pairwise scenario-level improvements are strictly positive and remain statistically significant after multiple-testing corrections. We provide formal guarantees on optimality under convex frictions, monotonic improvement under a KL trust region, long-run turnover bounds and induced inaction bands due to proportional costs, positive value advantage for regime-conditioned policies, and robustness to cost misspecification. The methodology is implementable: costs are calibrated from standard liquidity proxies, scenario-level inference avoids pseudo-replication, and all figures and tables are reproducible from released artifacts.
- Abstract(参考訳): 取引コストとレギュラーシフトは、紙ポートフォリオが生の取引で失敗する主な理由である。
本稿では, 低コストな貿易政策を学習し, ボラティリティ・リキディティ体制全体で堅牢なFR-LUX(Friction-aware, Regime-conditioned Learning under eXecution Cost)を導入した。
FR-LUXは3つの成分を統合する。
一 報酬に直接埋め込まれた比例費用及び衝撃費用を組み合わせた微構造整合実行モデル
二 物流よりも在庫フローの変動を規制し、安定して低ターンオーバーの更新をすることができる貿易空間信託領域
(iii)明示的な条件付けにより、データは断片化せずにLL/LH/HL/HH状態に特化できる。
FR-LUXは、複数のランダムシードを持つレジームとコストレベルの4×5グリッド上で、ブートストラップの信頼区間が狭いシャープ平均比を達成し、強いベースラインよりもフラットなコストパフォーマンス勾配を維持し、所定のターンオーバー予算に対してより優れたリスク・リターン効率を達成する。
シナリオレベルの改善は厳密に肯定的であり、複数検定の修正後も統計的に有意である。
我々は,凸摩擦下での最適性,KL信頼領域下でのモノトニック改善,比例コストによる長期転回境界および誘導不作用帯域,条件条件付き政策に対する正の利点,コスト不特定性に対する堅牢性などの公式な保証を提供する。
この手法は実装可能であり、コストは標準的な流動性プロキシから調整され、シナリオレベルの推論は擬似複製を避ける。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Adaptive Insurance Reserving with CVaR-Constrained Reinforcement Learning under Macroeconomic Regimes [0.0]
本稿では、テールリスク感度、マクロ経済体制モデリング、規制コンプライアンスを統合した保険保留のための強化学習(RL)フレームワークを提案する。
このフレームワークは、固定ショックストレステストとシステマティック・ストラテライズド・アナリティクスに対応しており、不確実性の下での維持に原則的で原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-04-13T01:43:25Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [9.591164070876689]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。