論文の概要: Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits
- arxiv url: http://arxiv.org/abs/2510.04952v2
- Date: Tue, 07 Oct 2025 07:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.498832
- Title: Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits
- Title(参考訳): 制限付きRLおよびゼロ知識監査による安全でコンプライアンスの高い市場貿易実行
- Authors: Ailiya Borjigin, Cong He,
- Abstract要約: 本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
- 参考スコア(独自算出の注目度): 0.5586191108738564
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a cross-market algorithmic trading system that balances execution quality with rigorous compliance enforcement. The architecture comprises a high-level planner, a reinforcement learning execution agent, and an independent compliance agent. We formulate trade execution as a constrained Markov decision process with hard constraints on participation limits, price bands, and self-trading avoidance. The execution agent is trained with proximal policy optimization, while a runtime action-shield projects any unsafe action into a feasible set. To support auditability without exposing proprietary signals, we add a zero-knowledge compliance audit layer that produces cryptographic proofs that all actions satisfied the constraints. We evaluate in a multi-venue, ABIDES-based simulator and compare against standard baselines (e.g., TWAP, VWAP). The learned policy reduces implementation shortfall and variance while exhibiting no observed constraint violations across stress scenarios including elevated latency, partial fills, compliance module toggling, and varying constraint limits. We report effects at the 95% confidence level using paired t-tests and examine tail risk via CVaR. We situate the work at the intersection of optimal execution, safe reinforcement learning, regulatory technology, and verifiable AI, and discuss ethical considerations, limitations (e.g., modeling assumptions and computational overhead), and paths to real-world deployment.
- Abstract(参考訳): 本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
貿易実行をマルコフ決定プロセスとして定式化し、参加制限、価格帯、セルフトレーディング回避に厳しい制約を課す。
実行エージェントは、近いポリシー最適化でトレーニングされ、実行時アクションシールドは、あらゆる安全でないアクションを実行可能なセットに投影する。
プロプライエタリな信号を公開することなく監査性をサポートするために、すべてのアクションが制約を満たすことの暗号的証明を生成するゼロ知識コンプライアンス監査層を追加します。
マルチビューのABIDESベースシミュレータで評価を行い,標準ベースライン(例えば,TWAP,VWAP)と比較した。
学習されたポリシは、レイテンシの上昇、部分的なフィリング、コンプライアンスモジュールのトグルリング、さまざまな制約制限を含むストレスシナリオに対して、観察された制約違反を示すことなく、実装の不足と分散を低減します。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
最適な実行、安全な強化学習、規制技術、検証可能なAIの交差点で作業を行い、倫理的考慮、制約(仮定のモデル化や計算オーバーヘッドなど)、実世界の展開への道筋について議論する。
関連論文リスト
- Tail-Safe Hedging: Explainable Risk-Sensitive Reinforcement Learning with a White-Box CBF--QP Safety Layer in Arbitrage-Free Markets [4.235667373386689]
Tail-Safeは、デリバティブヘッジのためのデプロイ性指向のフレームワークである。
学習コンポーネントは、IQNベースの分布批判とCVaRの目的を組み合わせる。
安全コンポーネントは、ドメイン固有の制約とともに離散時間CBF不等式を強制する。
論文 参考訳(メタデータ) (2025-10-06T07:39:45Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Policy Frameworks for Transparent Chain-of-Thought Reasoning in Large Language Models [1.0088912103548195]
CoT(Chain-of-Thought)推論は、複雑な問題をステップバイステップのソリューションに分解することで、大きな言語モデル(LLM)を強化する。
現在のCoT開示ポリシは、可視性、APIアクセス、価格戦略など、さまざまなモデルで大きく異なり、統一されたポリシフレームワークが欠如している。
学術,ビジネス,一般ユーザ向けにCoTの可用性を調整し,透明性,説明責任,セキュリティのバランスをとるタイレッドアクセスポリシフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T19:54:18Z) - Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium [6.169364905804677]
マルチエージェント強化学習(MARL)は協調作業において顕著な成功を収めた。
MARLエージェントを現実世界のアプリケーションにデプロイすることは、重大な安全性上の課題を示す。
我々は,エージェントが訪れるすべての状態において,安全要件を強制する,$textitstate-wise$制約付き安全なMARLの新たな理論的枠組みを提案する。
複雑な高次元システムにおける実践的展開のために、$textitMulti-Agent Dual Actor-Critic$ (MADAC)を提案する。
論文 参考訳(メタデータ) (2024-11-22T16:08:42Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。